CADCC-汉语普通话自然口语对话语料库的库容有多大?

volfer

Moderator
回复: CADCC-汉语普通话自然口语对话语料库的库容有多大?

这篇文章里有一些技术统计,但语料库的设计者关注的似乎并不是库容多少词,而是总的时长和容量大小(1.6GB)。毕竟这是一个汉语口语库,汉语分词本来就有许多不同的标准,按照这些不同的标准统计出来的库容大小也不会一样。
 

附件

chrisyang

普通会员
回复: CADCC-汉语普通话自然口语对话语料库的库容有多大?

很感谢Volfer提供的信息。
之前也看过好几篇使用CADCC进行研究的文章,但都没有提到库容的大小。汉语分词上会有不一致的结果,可是汉的多少总该有个比较肯定的说法吧。现在使用的汉语语料库在说明库容大小时,一般都会说是多少词以及字词比率。就好比LCMC的库容是一百万词,是按照1.6汉字:1个英语单词的比例而来;而在PH Corpus中的比例则是1.53个汉字:1个英语单词。作为为数不多的几个能见得着但却价格昂贵的国产汉语语料库的CADCC没有提供这一基本的信息,着实让人有点想不通啊!
 

volfer

Moderator
回复: CADCC-汉语普通话自然口语对话语料库的库容有多大?

很感谢Volfer提供的信息。
之前也看过好几篇使用CADCC进行研究的文章,但都没有提到库容的大小。汉语分词上会有不一致的结果,可是汉的多少总该有个比较肯定的说法吧。现在使用的汉语语料库在说明库容大小时,一般都会说是多少词以及字词比率。就好比LCMC的库容是一百万词,是按照1.6汉字:1个英语单词的比例而来;而在PH Corpus中的比例则是1.53个汉字:1个英语单词。作为为数不多的几个能见得着但却价格昂贵的国产汉语语料库的CADCC没有提供这一基本的信息,着实让人有点想不通啊!
看起来是语料库的设计方本身没有提供或公开相关信息,或许你可以联系社科院试试看。如果有意购买,他们或许会向你提供更详细些的信息的。
描述语料库的参数很多,或许设计方认为汉字数不如时长等等其他参数重要吧。
 
顶部