用AntConc处理中文concordance, wordlist, N-gram

回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

Thank you, 清风出袖.
 
回复:刚刚才发现AntConc也可以做cluster或N-gram/Ngram

以下是引用 armstrong2006-3-29 20:51:34 的发言:
顺便问一下如何进行“file view”,需要如何设置?谢谢!

在concordance完全后,需要浏览全文的时候,点击file view标签,在点击左边文件名,即可以浏览到全文,以及highlited search term。
2006032921155498.jpg
 
对不起各位,早上贴完帖子就搬家去了,累到现在才回家打开电脑。这里是大家关心的我是如何用AntConc处理中文的:

1、文本格式:
大家有没有注意到上面贴的我试验AntConc的文本中既有中文简体、繁体也有英文? 为了能在同一个文本中显示好中文简体、繁体和英文,我把所有文本都转存成UTF-8了。也就是说,我用 AntConc 处理的语料文本是存成UTF-8格式的,不是GB或Big5。另外,中文文本是经过分词处理的。请搜索本站找相关的自动分词和词性标注工具:SegTag、ICTCLAS、NEUCSP、Hylanda、WinAT等。

2、设置 AntConc:
在 Global Settings 下的 Language Encodings, 我没有选 Chinese Encodings下的选项, 而是选择了 Unicode Encodings 下的 Unicode(UTF-8)。其它设置可以用默认的。

3、功能:
这样设置后AntConc的功能就全部可以处理中文文本了,也就是说大家这样就可以用AntConc来处理分词后的中文的Concordance, Wordlist, Cluster, N-Gram等等了。Wordsmith 终于有了一个免费的竞争对手!
 
回复:用AntConc处理中文concordance, wordlist, N-gram

以下是引用 动态语法2006-3-29 15:28:58 的发言:
... I have had numerous discussions with him about code names; apparently this is the best that can be done at this point...

Basically, my test showed that this tiny program works very well with Chinese texts, though it is a pity that the concordances of KWIC are not nicely presented. Can you also ask him to add an option in saving the concordance result? Something similar as Wconcord's "Save with delimiters":
2006033011454810.jpg


With the delimiters saved, the concordance result looks as follow:
2006033011465757.jpg


Then we can make use of regular expression to replace all "|" with a Tab, and replace "[" with a Tab and "[". The result then can be opened with Excel in three columns. Resort in Excle is of course quite easy.
2006033011534855.jpg
 
回复:用AntConc处理中文concordance, wordlist, N-gram

请问AntCon 可以做Lemmatization吗? 除了WordSmith Tools, 我还没见到过其他类似软件。谢谢。
 
在“Tool preferences”下的“Word list preferences”里可以选择“use lemma list file”进行Lemmatization。
另外PhraseContext软件也可以Lemmatization。
 
这里谈论的是用 AntConc 代替 WordSmith 4 来处理汉语的Concrodance、Wordlist、N-gram等。不是说用它取代WordSmtih处理英文的所有功能。

另外,汉语应该不需要Lemmatization的,能处理英文Lemmatization的软件也不止WordSmith一个吧,搜搜Google估计能找到一些。
 
回复:用AntConc处理中文concordance, wordlist, N-gram

呵呵,误会了,冒犯之处多请见谅。

我是真心求教,或许我应当单独开一个帖子的。

这也再次说明了语言用于交际的功能不是完美的【我自己负主要责任】。

借宝地再请问刘语料 PhraseContext 的Lemma模块在哪里,我怎么只发现了一个Lemma search的功能?谢谢。
 
对不起,误会iCasino了,看来该睡一觉了,昨晚熬夜了,火气重,请包涵。也谢谢刘语料的回复。
 
回复:用AntConc处理中文concordance, wordlist, N-gram

呵呵, 不打不相识嘛,你发的很多帖子我都看了,受益良多。
 
回复:用AntConc处理中文concordance, wordlist, N-gram

我试了一下PhraseContext,不过那好像是一个往Lemma search添词的功能模块,不是我们平常所说的Lemmatization。AntConc是可以的,谢谢了。
 
呵呵,实在忍不住了要说:大家终于对俺大力推荐过的软件ANTCONC感兴趣了吧。
 
Back
顶部