PDA

查看完整版本 : 看来汉语语料库事业不很旺啊!


清风出袖
2005-07-14, 08:17 PM
这里http://www.icl.pku.edu.cn/icl_groups/corpus/dwldform1.asp有一个人民日报的语料库,有兴趣可以去看看!不过要注册的。可以用什么软件来检索么,如果可以请贴出来,让俺也知道一下!谢谢!多多关心沐浴语料库!

xujiajin
2005-07-14, 10:17 PM
何出此言,汉语语料库做得还是很多的。
人民日报的电子版近几年的电子版的都有卖的,纯文本的。盗版的偶尔也可以碰得到的。2000年的人民日报经xiaoz博士处理后放在了People’s Daily (2000) Corpus http://bowland-files.lancs.ac.uk/corplang/pdc2000/default.htm
你去看看。还可以看看
PFR People's Daily Corpus

PH Corpus of Chinese

xujiajin
2005-07-15, 12:27 AM
Some free online Chinese corpora

Academia Sinica Balanced Corpus of Modern Chinese
http://www.sinica.edu.tw/SinicaCorpus/

Peking University Modern Chinese Corpus
http://ccl.pku.edu.cn/ccl_corpus/xiandaihanyu/

Xiamen University corpora (registration required but free)
http://xmuoec.com/gb/hanyu/hanyu/data/corpus/index.htm

Beijing Language and Culture University corpus
http://202.112.195.8:8089/ccir_login?input=*

Lancaster Corpus of Mandarin Chinese
http://bowland-files.lancs.ac.uk/corplang/cgi-bin/conc.pl

Leeds Chinese corpus
http://corpus.leeds.ac.uk/query-zh.html

PFR People's Daily corpus (01/1998)
http://bowland-files.lancs.ac.uk/corplang/pdcorpus/pdcorpus.htm

PH corpus (Xinhua newswire data 1990-1991)
http://bowland-files.lancs.ac.uk/corplang/phcorpus/phcorpus.htm

People's Daily 2000 corpus
http://bowland-files.lancs.ac.uk/corplang/pdc2000/default.htm

Peking University Ancient Chinese Corpus
http://ccl.pku.edu.cn/ccl_corpus/jsearch/index.jsp?dir=gudai

Sinica corpus of early Chinese
http://www.sinica.edu.tw/Early_Mandarin/

Sheffield Corpus of Chinese for Diachronic Linguistic Study
http://www.shef.ac.uk/scc/

其实前面已经贴过了,只是要证明一下汉语语料库还是很兴旺的。只是国内的多半是不对外使用的。

xujiajin
2005-07-15, 02:32 AM
以下是引用 清风出袖 在 2005-7-14 20:17:23 的发言:
这里http://www.icl.pku.edu.cn/icl_groups/corpus/dwldform1.asp有一个人民日报的语料库,有兴趣可以去看看!不过要注册的。可以用什么软件来检索么,如果可以请贴出来,让俺也知道一下!谢谢!多多关心沐浴语料库!

这个语料库只是1998年1月人民日报切分、标注语料库。

xujiajin
2005-07-15, 02:33 AM
People's Daily 2000 corpus
http://bowland-files.lancs.ac.uk/corplang/pdc2000/default.htm
这是2000年全年的语料。

清风出袖
2005-07-16, 09:45 PM
谢谢您提供的汉语语料库信息!

xujiajin
2005-07-18, 10:58 PM
Beijing Language and Culture University corpus
http://202.112.195.8:8089/ccir_login?input=*
上面的第四个链接现在连不上了。

清风出袖
2005-07-20, 01:14 PM
http://202.112.195.8:8089/ccir_login?input=*this one does not work as well! it is a pity!

xiaoz
2005-07-20, 03:40 PM
This link used to be accessible.