用AntConc处理中文concordance, wordlist, N-gram

laohong

管理员
Staff member
#3
AntConc做cluster或N-gram/Ngram

Thanks, Dr. Xu. I have another good news to share with you guys (you may already know it):

AntConc 也可以处理中文,对于做过分词处理的中文文本几乎所有功能都能用!

这里是几张抓图:

1、Concordance of 道 in my Chinese-English Parralle Corpus of Hong Lou Meng。有点可惜的是 Headword 对的不是很齐。


2、Wordlist, 呵呵, 不错啊,中英混杂都可以。


3、Cluster of 道 (3 gram),有些怪怪的组合是segmenter分词本身的原因造成的。


看来没有WS4的朋友们有福了!AntCon完全可以替代词匠了!而且完全免费。
 

laohong

管理员
Staff member
#4
回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

以下是引用 清风出袖2006-3-29 9:42:24 的发言:
唯一感觉不太好的就是太大的文件它处理起来很慢。
刚才用120回红楼梦中文文本与120回英文译本的合成的平衡语料做了词频分析,速度还可以呀。看来这个免费的咚咚值得推广。慢工出细活,小巧玲珑,绿色软件,装在MP3、U盘等外接设备上到任何机器上都能运行。
 

Haiyang Ai

Administrator
Staff member
#5
好消息!慢点没关系,可以多等一会儿!

这个软件是早稻田大学的Laurence Anthony教授使用PERL语言开发出来的,
属于Freeware,而且还有Linux版本的。
 

oscar3

高级会员
#6
回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

的确是个好消息,我们还去购买WST4.0干什么????
 

xujiajin

管理员
Staff member
#7
我试验了一下分过词的中文语料为什么做不出来呢?
encoding settings我都换过了,好像还是不行。
laohong,你的设置是怎么处理的?
 

xusun575

高级会员
#8
回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

以下是引用 laohong2006-3-29 11:07:01 的发言:
Thanks, Dr. Xu. I have another good news to share with you guys (you may already know it):

AntConc 也可以处理中文,对于做过分词处理的中文文本几乎所有功能都能用!
Laohong啊,中文分词你用的是什么宝贝啊?
 
#9
不知道laohong用的什么宝贝!
我的方法是这样的:
我刚才是把Token Definition里面的Upper Case和Mark Token Classes两项选中后,再把Chinese Encoding 里面的第一项选中就行了,下面的我想就不用我来说了。下面是我的截图!


 
#10
这样看来除了速度的问题以外,其他的方面这个免费的小东东还是很厉害的。真希望这款免费的东东能够再快一点,那样就好了。另外,我也是瞎猫碰了个死耗子,不知道为什么。烦请各位高人能将上升到理论层次解释一下为什么这样就行呢?谢谢赐教,晚学这边先有礼了!
 

动态语法

管理员
Staff member
#13
回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

GB Encoding: To work with basic GB texts, select EUC-CN as your Chinese encoding (and use
EUC-TW for big5 texts). I have had numerous discussions with him about code names;
apparently this is the best that can be done at this point.

KWIC检索中的词对不齐: He is working on it, and centering keyword will likely be an option in
the next release, even though I have suggested to make it the default format.

Setting: Save your setting into a file in the same dir as AntConc. Next time you run it all the
settings will be activiated.

it still has some glitches, but overall it's shaping up really well to compete with some of
the heavyweight corpus tools.
 

oscar3

高级会员
#16
回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

以下是引用 armstrong2006-3-29 17:58:19 的发言:
按照清风出袖的方法可以做Concordance,但不可以做worldlist。请指教。(当然是指对汉语)。
看来大家对Antcon的热情高涨。好像没有那么难。但是,oscar3在使用中遇到一点不知对大家有作用没有,即在选择处理语言时必须是在没有加载任何语料时进行操作,如果已经加载了语料,再调整到别的语言,则无法处理。
 
#17
刚才我又试着搞了一下,这次可以显示了wordlist.就是主要是把letter token classes 下面的全部选中,这样就可以了。另外,我发现按照我的下午选项,其实没有进行分词的中文语料也是可以进行全文检索和显示的。蛮好这个软件,就是速度有些慢!
 

oscar3

高级会员
#18
回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

请教:concordance标签下的level1,level2,level3个代表什么意思?
 

xujiajin

管理员
Staff member
#19
回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

以下是引用 动态语法2006-3-29 15:28:58 的发言:
GB Encoding: To work with basic GB texts, select EUC-CN as your Chinese encoding (and use
EUC-TW for big5 texts). I have had numerous discussions with him about code names;
apparently this is the best that can be done at this point.
Thank you for the explanation on encoding.
 
#20
回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

以下是引用 oscar32006-3-29 19:08:20 的发言:
请教:concordance标签下的level1,level2,level3个代表什么意思?
代表的是检索出来的排列顺序。level 1如果你选择1R,level 2选择1L,level 3选择5R, 那么检索出来的结果就按照你所选择的检索词右边第一个词,而后按照左边第一个词,最后按照右边第五个词的先后顺序进行排列。
 
顶部