求助关于TEC小说字库的基本数据

Olohan,M (2004:80)曾对TEC的基本数据特征进行了总结,其中小说子库Token数4,945,301;type数64,340;TTR=1.3;STTR=44.63。除此之外,还统计了平均词长。
  1. TEC在不断扩容,不知道大家有没有关于TECFIC的最新数据。我自己检索了,不知道自己得出的数据是否正确,想请大家帮忙。
  2. 如何统计TECFIC的语料的平均词长?
 
Back
顶部