用AntConc处理中文concordance, wordlist, N-gram

回复: 用AntConc处理中文concordance, wordlist, N-gram

请教各位,我使用Antconc 无论中文英文,Kwic sort 中的颜色都显示不出来,只有Highlight color 中默认的蓝色可以显示,这是为什么呢?我的level 1.2.3 都设置了。
谢谢
 
回复: 用AntConc处理中文concordance, wordlist, N-gram

洪博士,你好,我是计算语言学的新手,所以问你一个较浅显的问题,我现在使用的是antconc3.2.1版本,导出的中文检索老是对不起,请问在哪里设置?
 

xujiajin

管理员
Staff member
回复: 用AntConc处理中文concordance, wordlist, N-gram

AntConc里中文确实对不齐,只是不好看而已。
 
回复: 用AntConc处理中文concordance, wordlist, N-gram

又出了新问题,AntConc检索出的关键词前后总是不是完整的句子,能够设置吗?
 

laohong

管理员
Staff member
回复: 用AntConc处理中文concordance, wordlist, N-gram

又出了新问题,AntConc检索出的关键词前后总是不是完整的句子,能够设置吗?
中文在AntConc生成的concordances里显示的是对不齐的,这个以前讨论过。
kWIC检索出来的结果一般都是左右各取若干字符或词数,而不是显示完整句子,通用concordance工具都是这样做的。试想如果显示完整句子,那左右句子长短不一该怎么办?
 
回复: 用AntConc处理中文concordance, wordlist, N-gram

请问:
在用AntConc3.2.0处理中文时,使用ICTCLAS对100条索引进行分词处理后的.txt文件,在用collocates时得不到结果,为什么呢?语言编码选的是UTF-8??
O(∩_∩)O谢谢.
解决啦,用EditPlus将Encoding改为UTF-8另存一下就可以了:)
 
Last edited:
回复: 用AntConc处理中文concordance, wordlist, N-gram

3.2.1w 是最新版本,应该不是版本问题。如果使用的是英文系统,查看你的语言和区域设置搞对了没有;如果设置没问题,或者本来就是中文系统,就检查是否做到了下面几点(都是本thread前面讨论过的,看来你需要读第三遍啊):

1、设置AntConc的Global Settings:
Global Settings, Language Encodings, Edit, choose Unicode Encodings, Unicode (utf8), Apply.

2、对文本进行分词处理或汉字加空格:
要想得到wordlist或character list,就得先把汉语文本分词处理,具体关于分词工具及其使用可在本坛查找。也可以简单地给每两个汉字间加个空格,从而达到检索目的。

3、转存文本成utf-8格式:
用Notepad或其它纯文本编辑软件如EditPlus等打开要检索的文本,然后转存,选择编码Encode为UTF-8。

4、使用AntConc得到Wordlist或Concordances。

Good luck!
Thank you very much.
 
回复: 用AntConc处理中文concordance, wordlist, N-gram

请教各位老师:

根据版主的方法,针对某语料(王朔的一篇小说),修改文本格式Unicode8,然后分词处理。之后试图用Antconc提取汉语语块,效果不理想。Antconc对汉语的句法的计算是不是还有问题?

另外,我想提取特定语块,如语料中“比”字句的语块,怎么定义变量呢?好像N-gram下的是提取所有的可能的语块。

谢谢。
 
回复: 用AntConc处理中文concordance, wordlist, N-gram

antconc就是个福音呐,挺好的,要是能自动统计词块出现的文本数量就更好啦:)
 
回复: 用AntConc处理中文concordance, wordlist, N-gram

为什么我用antconc3.3.4W版本的对进行分过词的文本进行检索时,查不出结果?改用3.2.1w版本的对同样的文本进行检索,但是KWIC中包括了此类的标记符号?这个问题怎么解决呢,请各位高手给予解答
 
Re: 回复: 用AntConc处理中文concordance, wordlist, N-gram

为什么我用antconc3.3.4W版本的对进行分过词的文本进行检索时,查不出结果?改用3.2.1w版本的对同样的文本进行检索,但是KWIC中包括了此类的标记符号?这个问题怎么解决呢,请各位高手给予解答
The problem might be that the default character encoding changed between 3.2.1 and 3.3.x. The default setting is now UTF-8.

Laurence.
 
回复: 用AntConc处理中文concordance, wordlist, N-gram

我用了你说的设置的方法,但是输入词,点start进行检索concordance时,检索出的结果显示出来的语料不是纯文本语料,是经过分词标注的语料。达不到楼主演示的那样的结果。这个是怎么回事呢?



不知道laohong用的什么宝贝!
我的方法是这样的:
我刚才是把Token Definition里面的Upper Case和Mark Token Classes两项选中后,再把Chinese Encoding 里面的第一项选中就行了,下面的我想就不用我来说了。下面是我的截图!


 
回复: Re: 回复: 用AntConc处理中文concordance, wordlist, N-gram

我将设置改为utf-8了,也不行,用3.2.1可以进行检索。但是问题是,用3.2.1版本的检索时,concordance结果显示出的是带有分词标注的文本,而非纯文本。这个怎么解决?

The problem might be that the default character encoding changed between 3.2.1 and 3.3.x. The default setting is now UTF-8.

Laurence.
 
回复: 用AntConc处理中文concordance, wordlist, N-gram

麻烦你帮我详细解释下,谢谢了

请问:
在用AntConc3.2.0处理中文时,使用ICTCLAS对100条索引进行分词处理后的.txt文件,在用collocates时得不到结果,为什么呢?语言编码选的是UTF-8??
O(∩_∩)O谢谢.
解决啦,用EditPlus将Encoding改为UTF-8另存一下就可以了:)
 
顶部