关于建立共享汉语口语语料库的设想

动态语法

管理员
Staff member
#1
各位:

目前由于缺乏可以免费共享的汉语口语语料库,不少人经常要问别人要材料,现在提议,
本站网友及其他同好是否可以共同参与,有能力者哪怕每人贡献一个录音/录像,假以时日,汇集起来就相当可观了。以下是一些初步想法及问题。

1)争取以数码录像为主,数码录音也不排斥。
2)音像材料尽可能要有完整的背景信息(具体内容可议)。
3)集体协议,规定一些话语类型,争取扩大语料的覆盖面,不要集中在少数几个方面(比如广播等)。
4)应规定最基本的转写规则。初始阶段以宽式为主,逐步细化。
5)全部有关资料比须数字化,以便存档,并且可以减少财政开支(目前没有一分钱)。
6)不能贡献录音录像者,应在转写上作贡献。
7)凡有贡献者都可使用所有语料。
8)法律问题:必须争得被录音录像人的书面同意,全部材料允许(有限程度的)公开、非商业使用。

以上提议仅供参考,请大家提意见,达成共识。
毫无疑问,道路是曲折的,但前途也是光明的。

陶红印 2007.6.6
 

laohong

管理员
Staff member
#4
回复: 关于建立共享汉语口语语料库的设想

非常支持!不过对采样对象的年龄、性别、文化背景、场景、话题、录像长短等还得个详细规划。各位之间的协调也得考虑。

我这里参与的一个项目已经有了1000个学龄前(5-6岁)儿童的汉语口语录音/录像,其中599个已经可以完全做到了time-aligned的转写,也都进行了词性标注。感兴趣的可以到下面网站试验检索(还在频繁调试,如果遇到问题请过一段时间再试)。
 
Last edited:

动态语法

管理员
Staff member
#5
回复: 关于建立共享汉语口语语料库的设想

Your link doesn't work.
 
Last edited by a moderator:

Haiyang Ai

Administrator
Staff member
#7
回复: 关于建立共享汉语口语语料库的设想

非常支持这个具有开拓性的项目。

我想数码录音也许要比录像容易些。另外,是否也要考虑到不同地点的抽样,既然我们C友来自五湖四海,那么希望也能汇集不同区域,不同城市的语料。更具体一点,是否也要考虑方言的问题,山东话,陕西话,四川话,粤语等等的不同变体?

记得以前各位C网也有做过类似的项目,就是收集各大景点路牌路标上的英语图片,也汇集了不少。
 

oscar3

高级会员
#8
回复: 关于建立共享汉语口语语料库的设想

严重支持,愿意共享自己的微薄之力。无论是数码录音还是录像都可以。希望一个详细的规划能够早点出来。
 

动态语法

管理员
Staff member
#9
回复: 关于建立共享汉语口语语料库的设想

严重支持,愿意共享自己的微薄之力。无论是数码录音还是录像都可以。希望一个详细的规划能够早点出来。
We need to see how much interest there is before we can decide on anything.
 
#11
回复: 关于建立共享汉语口语语料库的设想

[FONT=宋体]确实有难度啊,光是前期收集工作就会遇到这样的问题:[/FONT]
1、 [FONT=宋体]录音前争得对方同意吧,怕影响自然度,不争得同意又不行[/FONT]
2、 [FONT=宋体]口语录音也应分清不同文体。比方说,演讲性质的录音接近书面语,除了可以分析语音以外,它的功用和书面材料的语料类似,如果要进行话语分析研究,就不能用这样的语料,而应选用对话形式的语料。这里又有一个问题,自然对话常常发生在嘈杂的环境中,录音效果难以保证。[/FONT]
3、 [FONT=宋体]录音转变成文本耗时耗力,要是有相关软件就能省力不少,现在有文本语音转换器,不知道什么时候能有个语音文本转换器。微软的[/FONT]speechsdk51[FONT=宋体]不知和这个有没有关系。[/FONT]
 
Last edited:
#12
回复: 关于建立共享汉语口语语料库的设想

[FONT=宋体]微软的[/FONT]speechsdk51[FONT=宋体]不知和这个有没有关系。[/FONT]
SpeechSDK5.1
一款与MSAgent和MSSpeechSDK技术紧密结合的定时提醒软件,使你在电脑前专注于某一项工作时,不至于忘记其它该干的事情(比如:9:30去接女朋友、定时向上级汇报工作、按时递交各种工作文件等),该软件最大的特点就是提醒内容到期后弹出你选定的精灵动画并将提醒内容读出!在解决“健忘族”的苦恼的同时也增加了许多趣味性。
http://zhidao.baidu.com/question/23073267.html
 
#17
回复: 关于建立共享汉语口语语料库的设想

支持!
我对汉语口语研究也很有兴趣,并准备将此作为自己研究生研究的主要内容!
也要学着自己建立口语语料库了,不过我还是一个新手,妄各位前辈多指点。

by
 
#18
回复: 关于建立共享汉语口语语料库的设想

支持!
我对汉语口语研究也很有兴趣,并准备将此作为自己研究生研究的主要内容!
也要学着自己建立口语语料库了,不过我还是一个新手,妄各位前辈多指点。

by the way, 我本科毕业论文想做汉语口语会话衔接问题,需要普通话口语对话语料,说话者最好受过中等教育以上,有资料的可否共享一下(没有处理过的生语料就行),收取适当的费用也行。

联系我:yuzhu_22@yahoo.com.cn

谢谢各位前辈支持呀!
 
顶部