请教:如何检索部分语料

parker

初级会员
要检索口语语料库中学生的语料,而不要老师的语料,请问用wordsmith或antconc该怎么检索阿?
 
回复: 请教:如何检索部分语料

要检索口语语料库中学生的语料,而不要老师的语料,请问用wordsmith或antconc该怎么检索阿?

具体是什么语料库?这个语料库对于老师和学生的话语所设定的标记分别是什么?知道了学生和老师的话语标记,通过检索标记(tags)便可以提取学生话语了。
 
回复: 请教:如何检索部分语料

哦,这个语料库中对老师的话语标记是I:,对学生的话语标记是A:, B:等。能具体说明如何利用tag提取吗?提取以后再检索需要检索的词有什么特别需要注意的地方么?
 
回复: 请教:如何检索部分语料

哦,这个语料库中对老师的话语标记是I:,对学生的话语标记是A:, B:等。能具体说明如何利用tag提取吗?提取以后再检索需要检索的词有什么特别需要注意的地方么?

你可以用索引软件(concordancer),比如Antconc,通过concordance这个功能,可以分别列出教师I(是<I>,还是?),学生A,B (<A>,<B>, 或者是[A],?)。也就是说,你要将这些标记不同话语的tag输入到concordance的检索框中,分别列出tag的上下文,调整“语境”的大小,以便真正得到你想要的内容。
 
回复: 请教:如何检索部分语料

谢谢指导阿,我检索出来了。接下来比如我要在检索出的学生话语中再继续检索can这个词的使用情况,应该怎么办呢?
 
回复: 请教:如何检索部分语料

建议花点时间学习一下Xaira吧,自己可以“随意”处理语料和检索,不必受WordSmith,AntConc等功能的局限。
 
回复: 请教:如何检索部分语料

什么是Xaira阿?也是检索软件吗?能不能先请帮忙解决一下上面那个在提取出的学生语料中继续检索的问题呢?
 
回复: 请教:如何检索部分语料

建议花点时间学习一下Xaira吧,自己可以“随意”处理语料和检索,不必受WordSmith,AntConc等功能的局限。

Xaira好是好,但是要求语料最好是XML格式的,这个一般人很难办到.
 
回复: 请教:如何检索部分语料

Xaira 照样可以处理纯文本文件。
 
回复: 请教:如何检索部分语料

Xaira 照样可以处理纯文本文件。

是的,处理纯文本文件经过Index后可以处理,但是如果要进行各种参数的组合分析则须是XML格式的,此软件的设计初衷就是处理XML格式的BNC的,是Sara的升级.
 
回复: 请教:如何检索部分语料

且不说“XML就那么可怕吗的”问题,要想处理自己的语料自由度大,就值得花点时间学习一下XML。当然,大多数情况下并不一定要把文本完全XML化,简单地标记一下纯文本文件就可以用Xaira达到检索目的。这里给个例子:

原文:
A: How do you do?
B: Fine, thank you. How do you do?
A: Oh, what's your name?
B: Oh, my name is Wangyan. I think you are a freshman.
A: Yes, I'm glad to meet you. My name is Shengtianyun.
B: Me, too.

使用通用的文本编辑器,如EditPlus等的Find-Replace功能就可以很快把上面的文本简单标记成如下的样子,最好存成UTF-8格式的:
<?xml version="1.0" encoding="utf-8"?>
<TEXT>
<S SPK="A"> How do you do?</S>
<S SPK="B"> Fine, thank you. How do you do?</S>
<S SPK="A"> Oh, what's your name?</S>
<S SPK="B"> Oh, my name is Wangyan. I think you are a freshman.</S>
<S SPK="A"> Yes, I'm glad to meet you. My name is Shengtianyun.</S>
<S SPK="B"> Me, too.</S>
</TEXT>

然后用Xaira来Index,就可以检索了。例如下面就是检索“you”的结果,总共出现5次,A用了2次,B用了3次。
 

附件

  • result1.jpg
    result1.jpg
    58.7 KB · 浏览: 7
  • result2.jpg
    result2.jpg
    37.7 KB · 浏览: 7
回复: 请教:如何检索部分语料

老洪,请问你使用的Xaira的版本是多少?
你的第二个贴图中的Parition SPK是如何得到的?
谢谢Dr.Hong.
 
回复: 请教:如何检索部分语料

我用的是最新的版本1.23的(1.24还在测试阶段,未正式发布)。
检索结果出来后,敲Query, 选Analysis就可以得到那个饼形图。不过,语料得先partition,最好阅读Xaira的帮助文件。
 
Back
顶部