【求教】如何为自然口语语料库制作key word list

在下想为目前自建的小型汉语经济新闻语料库(tokens=130,387)制作一个key word list,但是不知道该选现有的哪个语料库来做参照语料库,LCMC多为书面语,且其中语料年代实在有些久;不知道LDC on line里边的中文报纸语料库能不能做出词表呢?

多谢,盼解。
 
回复: 【求教】如何为自然口语语料库制作key word list

Here is is copy of the wordlist of the Lancaster Los Angeles Spoken Chinese Corpus (LLSCC) for use with WordSmith 4 or 5. More information about the corpus can be found at the following link:

http://www.lancs.ac.uk/fass/projects/corpus/LLSCC/
谢谢肖老师,还有一个问题,做出关键词表后,发现我所关注的季节--天气类词汇在我的语料中出现频率很低,但是这类词的隐喻--非隐喻使用又是我的主要研究对象,您觉得对这样一类出现频率较低的词汇 可行么?还是主要关注高频词较合适?

谢谢您
 

xiaoz

永远的超级管理员
Staff member
回复: 【求教】如何为自然口语语料库制作key word list

需要先把停用此表保存为纯文本文件。具体调用请参考WST用户手册。

抱歉,还有一个问题,WS 5做keywordlist时如何使用stoplist呢?谢谢。
 

xiaoz

永远的超级管理员
Staff member
回复: 【求教】如何为自然口语语料库制作key word list

能否可用要看频率低到什么程度。频率太低时作的统计分析不可靠。


谢谢肖老师,还有一个问题,做出关键词表后,发现我所关注的季节--天气类词汇在我的语料中出现频率很低,但是这类词的隐喻--非隐喻使用又是我的主要研究对象,您觉得对这样一类出现频率较低的词汇 可行么?还是主要关注高频词较合适?

谢谢您
 
回复: 【求教】如何为自然口语语料库制作key word list

2-10次是很低的频率了。如果那些次在LDC和你的经济新闻语料库还是那么低频,恐怕效果不好。

能否可用要看频率低到什么程度。频率太低时作的统计分析不可靠。
那么如果是在tokens=130,387的语料库中,frequency在2-10次的词呢?目前统计发现这些词的频率大致就在2-10次

我主要关心的是这些词在LDC和我的经济新闻语料库中隐喻-非隐喻 异同
 

Evalyin

语料库小学生
回复: 【求教】如何为自然口语语料库制作key word list

This paper might be of help to you:
http://www.lexically.net/wordsmith/corpus_linguistics_links/Keywords-Culpeper.pdf

Here is is copy of the wordlist of the Lancaster Los Angeles Spoken Chinese Corpus (LLSCC) for use with WordSmith 4 or 5. More information about the corpus can be found at the following link:

http://www.lancs.ac.uk/fass/projects/corpus/LLSCC/
借帖请教:
用wordsmith能不能在剧本中剔出舞台指示语等,并区分戏剧人物生成关键词?谢谢!
 
Last edited:
顶部