回复: 关于建立共享汉语口语语料库的设想
确实有难度啊,光是前期收集工作就会遇到这样的问题:
1、 录音前争得对方同意吧,怕影响自然度,不争得同意又不行
2、 口语录音也应分清不同文体。比方说,演讲性质的录音接近书面语,除了可以分析语音以外,它的功用和书面材料的语料类似,如果要进行话语分析研究,就不能用这样的语料,而应选用对话形式的语料。这里又有一个问题,自然对话常常发生在嘈杂的环境中,录音效果难以保证。
3、 录音转变成文本耗时耗力,要是有相关软件就能省力不少,现在有文本语音转换器,不知道什么时候能有个语音文本转换器。微软的speechsdk51不知和这个有没有关系。