corpus里单个text大小问题

Lily Ray · 2011-12-21

大家好！
最近也在看论文准备论文，发现很多人在准备语料时提到:单个文本字数太少而将其舍弃，或再合并另一个文本使其变得足够大。而且有人提到在设计语料库时定规则：少于比如说300字的文本不收集。请问对文本大小的规定是出于什么考虑，是出于语汇密度计算的考虑吗？是要遵循文本最小字数的限制还是所有文本大小围绕在一个中值附近？因为比如网页中的文章不像其它印刷品上的文章那样长，就达不到字数要求。
请大家指点迷津！

lucindazhao · 2011-12-21

回复: corpus里单个text大小问题

忘了谁的书里写到过，研究一般的linguistic feature,差不多1200还是1400词就是比较合适的量了。其实统计的时候可以按每千词算。但是我个人感觉，如果三千字的按每千词算还比较合理，如果三百字的还硬按每千词算似乎有点不合理了吧，特别是对于一些比较少见的linguistic feature，如果因为三百词中没有出现一次就推断为1000词也不会出现我自己觉得这是不太合理的。

xujiajin · 2011-12-22

回复: corpus里单个text大小问题

之前一些文献，提到过语料文本的大小，最少多少字数。Sinclair 1991也说过，但后来的很多语料库建设并没有按他说的字数限制去做。
各种有关字数限制的说法，都没有特别的道理可言。

比如国内的学习者语料库，每篇作文都是少于300单词的，当然都得收。因此，不能说300词以下的就不要。

dzhigner · 2011-12-22

回复: corpus里单个text大小问题

这个问题其实不是问题，貌似目前很多国内的语料库研究是用某些照搬来的套路、或者套用某些所谓的规则，却忽视了“具体问题具体分析”这个原则。如果建个库是要搞某个专题研究，完全应该按该课题本身的特点来组织语料。。。

顺便多说两句，也许不相干，也许是多少有点愤世嫉俗的废话。其实搞语料库研究，都应该首先弄清楚并且陈述清楚用语料库是何目的，是用语料库作为一个样本，还是把语料库作为一个实例的来源，还是研究语料库本身，或是陈述如何筹建一个面向某种目的的语料库。但是有太多的研究成果在这个问题上相当模糊，似乎扯到语料库上甚至要再扯到用了某种“工具”（比如SPSS）就显得比较“强大”，说实在的，这个潮流如今已经过气了吧。

xujiajin · 2011-12-22

回复: corpus里单个text大小问题

丁老师所言极是。

一个研究并不是用了SPSS或者语料库就是高明的研究。

lucindazhao · 2011-12-23

回复: corpus里单个text大小问题

两位老师，我正好有个头痛的问题想请教。如果我的库里的text的篇幅是从700到1000多都有，那么如果要计算每篇的standardised TTR应该把basis设置到多少比较合适，我看大师们一般都设置到1000，但是如果这样少于一千词的文章就没有standardised TTR这一项了。如果就按篇幅最少的，比如700设置，这样是否合理呢？
这个basis的设置依据什么标准比较合理。或者是否语料库搜集时候就得注意篇幅要基本一致的问题呢？

dzhigner · 2011-12-23

回复: corpus里单个text大小问题

作者 lucindazhao:
两位老师，我正好有个头痛的问题想请教。如果我的库里的text的篇幅是从700到1000多都有，那么如果要计算每篇的standardised TTR应该把basis设置到多少比较合适，我看大师们一般都设置到1000，但是如果这样少于一千词的文章就没有standardised TTR这一项了。如果就按篇幅最少的，比如700设置，这样是否合理呢？
这个basis的设置依据什么标准比较合理。或者是否语料库搜集时候就得注意篇幅要基本一致的问题呢？

"如果就按篇幅最少的，比如700设置，这样是否合理呢？"，这个要看你研究的具体情况而定了，如果你需要的是一批长度差异小的文本，当然要统一一下，但是如果没有这种必要，就可以按最小文本长度设置。所以首先要搞清楚的问题是文本长度差异大是不是会影响语料库的效用。当然了，即便这个问题不是决定性的，文本长度也还是不要太分散为好。700到1000这样的差距，不会是什么大问题。

lucindazhao · 2011-12-23

回复: corpus里单个text大小问题

谢谢丁老师，这样我就放心了。再搜集语料的时候，得关注这个统一的问题。

这个语料库建库的确要考虑到很多问题，一开始没考虑到，后面很被动。不过有了一次经验，相信下一次就会顺手很多。

corpus里单个text大小问题

Lily Ray

lucindazhao

xujiajin

管理员

dzhigner

Moderator

xujiajin

管理员

lucindazhao

dzhigner

Moderator

lucindazhao