PDA

查看完整版本 : [求助]什么工具可以用来做中文的keywords?


hancunxin
2005-10-09, 11:07 PM
除了wordsmith4可以做中文Keywords(据说可以,有人做过吗?)以外,还有什么其他工具吗?苦于没有wordsmith4,所以想找个替代品。

xujiajin
2005-10-10, 12:09 AM
wordsmith4 当然是可以的,其它的好像没听说过。

xudekuan
2006-01-28, 01:06 PM
是么?

xudekuan
2006-01-28, 01:13 PM
xiaoz说Xaira 也可以。
但是有几个问题要问xiaoz。因为那个帖子是只读的,只好在这里问:
1。log likelihood是怎样算出来的?如何解读?有没有显著性检验?
2。该值是负值是含义是什么?
例如:

" 6 0.0000 17943 0.0191 - 9916.20
的 6824 0.0225 51141 0.0543 - 5800.86

laohong
2006-01-29, 10:02 AM
Suppose one word occurs 29 times in a 2000-word corpus (Corpus 1) and 34 times in a 2500-word corpus (Corpus 2). Here is the Log-likelihood calculator result:

Item O1 %1 O2 %2 LL
Word 29 1.45 34 1.36 + 0.06

Key:

O1 is observed frequency in Corpus 1
O2 is observed frequency in Corpus 2
%1 and %2 values show relative frequencies in the texts.
+ indicates overuse in O1 relative to O2
- indicates underuse in O1 relative to O2



[本贴已被 作者 于 2006年01月29日 10时06分07秒 编辑过]

xudekuan
2006-01-29, 03:18 PM
非常感谢laohong, 能否告诉计算公式,以及LL值达到多大才能确定其为kw

laohong
2006-01-29, 04:59 PM
Here you can find what you wanted:

Log-likelihood calculator (also see those papers)

http://ucrel.lancs.ac.uk/llwizard.html

xudekuan
2006-01-30, 12:13 AM
thak y very much!

xudekuan
2006-01-30, 03:23 PM
xaira可以处理用xml格式标注的语料,但是不知道能否处理用其他格式标注的语料?

[本贴已被 作者 于 2006年01月30日 21时58分20秒 编辑过]

xudekuan
2006-02-06, 12:37 PM
xaira可以处理用xml格式标注的语料,但是不知道能否处理用其他格式标注的语料,比如北大格式?

xusun575
2006-02-07, 10:05 PM
AntConc 3.1.2 for Windows and Linux recommended by 清风出袖 is full functional for Chinese encodings.

http://www.corpus4u.com/forum_view.asp?forum_id=7&view_id=1471

xudekuan
2006-02-08, 09:50 AM
would u kind introduce the functions applicable for processing Chinese by the software?

xusun575
2006-02-08, 10:06 AM
以下是引用 xudekuan 在 2006-2-8 9:50:36 的发言:
would u kind introduce the functions applicable for processing Chinese by the software?

go and download one, and then you will know how functional it is for Chinese.

martinlu
2006-02-16, 02:19 PM
我手头有一个现成的语料库,是用acces做的,不知该怎么做语料分析