免费使用的汉语口语语料库

大家好!

我构建的一个40万字左右汉语口语语料库已在GitHub上免费开放,网址:https://github.com/blculyn。这个语料库包括一个20多万字的汉语母语口语语料库(the spoken L1 corpus)和一个20多万字的汉语非母语语料库(the spoken L2 corpus)。所有的资料均可免费下载。

两个语料库包括的是informal speech。其中,汉语非母语语料库的L2 speakers基本上都是在日常生活中需要使用汉语的人,而不是在校的汉语学习者。他们都是英语母语者,且不是汉语继承语者(non-Chinese ethnicity)。具体的资料在网站上可以找到。

希望这个语料库可以为各位的研究提供一点点的帮助。如果各位在使用中有问题,欢迎沟通交流。

谢谢!
 
你好!谢谢关注这个口语语料库。调查对象的信息可以在metadata的文件里找到。如果还有其他的问题,欢迎交流!
 
Back
顶部