搜寻结果

  1. D

    [求助]《中国学习者语料库》第13页语料库词频分布的问题:累频

    Word Number Cumulative Cumulative Percentage Percentage Frequency of Words Vocabulary Word Count Vocabulary Word Count 1 14856 14856 14856 45.33830 3.08546 2 4929 19785 24714...
  2. D

    [求助]《中国学习者语料库》第13页语料库词频分布的问题:累频

    回复:[求助]关于《中国学习者语料库》第十三页语料库词频分布的问题 积累百分比是否将各词型在总词型数中所占百分比的累加?
  3. D

    [求助]《中国学习者语料库》第13页语料库词频分布的问题:累频

    “Herdan认为词频的分布是遵循对数正态模型(Herdan, 1960: Caroll, 1967), 即如果把样本(用词次表示)的积累百分比和相应的词型频数的对数作图,前者为Y轴后者为X轴,其分布是正态的。” 拜托高手给“样本积累百分比和相应的词型频数”这两个概念解释一下。。 [本贴已被 xujiajin 于 2005年09月22日 23时19分25秒 编辑过]
  4. D

    help!!!如何去掉文本中的回车符?

    If you have UltraEdit, it'd be a piece of cake.
  5. D

    一个应用EXCEL作为语料库分析工具的例子

    回复:一个应用EXCEL作为语料库分析工具的例子 赞同赞同!
  6. D

    [讨论]Are z-score and T-score identical?

    根据《语料库语言学导论》,要计算Z值,需要知道5个数据,他们分别是:被研究词或节点词的频数N,跨距S,搭配词在整个文本中的频数C,搭配词在小文本中的频数C'以及整个文本的长度。根据这些数据,可以计算小文本的长度M,搭配词占整个文本长度的比率P,搭配词在小文本中的期望频数E,其标准差及最终的Z值或Z分数。他们的计算公式分别是: M=(2*S+1)*N P=C/W E=P*M SD=SQRT(P*(1-P)*M) Z=(C'-E)/SD...
  7. D

    [讨论]Are z-score and T-score identical?

    回复:[讨论]Are z-score and T-score identical? _ 我问一个很愚蠢的问题。 我在一本书上看到 z= x-x/s (P104《外语教学研究中的定量数据分析》秦晓晴 著)而在《语料库语言学导论》一书中P158 Z=C`- E/SD 为什么这两个公式不一样的呢? 前面那个公式是概率统计里计算“标准分”的标准公式,后者和前者,如Xiaoz指出,实质是一样的。。。
  8. D

    [讨论]Are z-score and T-score identical?

    回复:[讨论]Are z-score and T-score identical? That's where I am confused. 我认为核心的原理是一样的,实际上关于T-score有两种说法,一种是用以调查两词搭配状况的差异,一种其实和Z-score的原理差不多。也许这些计算方法是在统计学的大框架里根据语料库的特性确定下来的。我认为常用的T-score公式是student's t-test和二点分布和成的一种简化/活用形式,Z-test是类似于“标准分”计算的一种方法,其中包含二点分布的方差。两者都涉及到这样两个元素...
  9. D

    Collocation statistics MI, t, z...

    回复:Collocation statistics MI, t, z... We might have used different contingency tables, but close is ok, is it?
  10. D

    一个应用EXCEL作为语料库分析工具的例子

    我起初对这个相依表很糊涂,后来用kfNgram软件作了一堆2-grams 比对着计算好久才搞清楚了些,我认为O22=W-O11-O12-O21 不过的确太较真,C'好像没什么必要。
  11. D

    [讨论]Are z-score and T-score identical?

    我琢磨这个问题一段时间了。。。一直没搞通。。。 我在另一个贴子里叨咕了两句。。。 T-test is used to solve two types of collocation discovery problems. It seems that T-test is used in "investigations of how pairs of words are used differently, rather then the association between two words" (Biber, 1998), and in this case the statistical...
  12. D

    有没有人研究过一个人的汉语水平同其英语水平之间的关系

    When we are used to dealing with rights and wrongs and differences. It might be difficult for us to see that actually chances of making mistakes are kind of slim. There are so many fascinating similarities. Like a Chinese fat guy says "我能吃", for the same thing, an American fatty may say "I can...
  13. D

    有没有人研究过一个人的汉语水平同其英语水平之间的关系

    Although the linguistic cognitive system is not that explicitly accessible or declarative, a certain introspective way of thinking is liable to lead us near to it. The more declarative efforts we make to explore this territory, the better command of this system we can have. The more we use...
  14. D

    有没有人研究过一个人的汉语水平同其英语水平之间的关系

    I believe there is an innate cognitive system that handles language, whatever natural language it is. If one is sensitive enough, he may well experience such a phenomenon: when one is totally talking in a foreign language, on a high level of thinking in that language too, he suddenly be aware...
  15. D

    Parallel image text corpus of Chinglish 开心译站

    Another problem: Some of these samples might be outcomes of reckless uses of translation softwares. Can we call them natural?
  16. D

    Collocation statistics MI, t, z...

    回复:Collocation statistics MI, t, z...
  17. D

    WEBCORPCTHE WEB AS CORPUS

    What I posted in this thread is a dynamic html page.
  18. D

    [转贴] 关于T-Score 和 Mutual Information 的好文章

    不才怠慢了,竟没有看到这则贴子,没有找到这篇论文。但是如果用Google Scholar (http://scholar.google.com/ ) 搜索一下可以发现很多Citations
  19. D

    一个应用EXCEL作为语料库分析工具的例子

    回复:一个应用EXCEL作为语料库分析工具的例子 关于公式3中contingency table的简单说明:
Back
顶部