北京口语语料免费使用

xujiajin

管理员
Staff member
北京口语语料免费使用
http://www.blcu.edu.cn/yys/6_beijing/6_beijing.asp

《当代北京口语语料库》说明





20世纪80年代的“北京口语调查”通过大规模的有计划的实际调查,记录了在居住地区、性别、年龄、职业、文化程度和民族等方面具有不同社会特征的北京人日常生活中的自然话语。我们在此基础上对当时调查的成果进行了更深一步的加工处理,制作成了186万字的《当代北京口语语料库》,其中精加工部分45万字。

1.被试的抽样

被试都是老北京人,所谓老北京人是指不仅本人在北京出生和长大,而且父母双方也都是北京人,这里的北京不包括北京市辖的各县,仅限于老城区和近郊区;在被试的社会特征分布上主要考虑了性别、年龄、文化程度、职业和民族五个方面,在抽取被试的时候力求其社会特征的分布比例相当。《当代北京口语语料库》共有374名被试的录音语料,在精加工时,我们采取判断抽样的方法,抽取了东城、海淀、卢沟桥、牛街、天桥、西城各20名被试,共120人。其中,男女两性各60人,老、中、青三个年龄层的被试各40人,高、中、低三个文化程度的被试各40人。

2.有声语料的采集

交谈的话题为事先设计好的,共6类28个,均为人们日常生活中所关注的家常事宜或当时的热门话题,如:居住条件、社会治安、学习就业、婚丧嫁娶等等。采访前事先对这6类话题进行排列组合,使每一个话题在每一地区都有相同的人数谈及,每个被试至少选取4个话题,6个地区同一职业的被试谈及全部话题。因为话题都是家常闲聊,因此,语料都是自然状态下的日常口语。会话形式上,也基本都是个人的即兴叙述,只是在会话中,为保持会话的连贯性或避免被试跑题,调查人适当插入一些引导性的话语,但这一部分在有声语料的后期剪辑中被删除了。因此,此次口语调查的每段录音均为被试个人连续的正常讲述,被试不存在情绪上的激烈波动(比如争吵、生气等),也不包括长时间的沉默和间断。这样,我们共获得了120盘谈话录音带,转换成数字化声音文件共8.5GB。

3.语料的转写

我们把374名被试的谈话全部转写成了文字,制作成了186万字的《当代北京口语语料库》。为了保证文本语料能客观地反映有声语料的真实面貌,我们在转写时完全采用不作任何主观干预的自然描写方法。

(1)对有声语料中的口误、脱落、赘述、重复等现象不作任何修改,照原样转写。

(2)凡有固定用字的,都以《现代汉语通用字表》所收汉字为准,没有固定用字的用同音替代的方法处理即在汉字后加等号“=”表示,而电脑库里没有的字用@表示,有音无字的用符号“□”表示。

(3)变读、文白异读、误读等情况在文字上仍用正规汉字书写。

4.语料的标注

我们对120名被试的45万语料进行了词语切分、语音标注和话语标记。

(1)词语切分:我们对语料中的每个词语都进行了切分,词与词之间用“/”隔开,联系紧密的短语用“{}”标记。

(2)语音标注:根据录音对语料中出现的轻声、儿化、清入字以及其他特殊语音现象用国际音标进行了标注,并对部分词语进行了文本和声音的链接。

(3)话语标记:在Zimmerman等人的转写框架基础上,我们制定了一套切实可用的符号,从话语分析角度对语料进行了标注。符号如下:

(#)表示不计时的停顿。 (1.2)表示停顿的精确时间

(×)表示说话人说话时的重复或口吃 ∷表示前面的音节延长

表示各种形式的强调 ――表示前后词或音之间中断

(词语)表示转写人对词语没有把握 <词语>表示说话人声音模糊

( )表示转写人听不清的部分 ((  ))表示听到的某些非言语行为

(↑)、(↓)表示说话人的语调

5.语料的统计、检索

我们将对语料进行信息处理,利用计算机建设语料库的查询系统、检索系统和统计系统,拟建立语料的“词频统计”、“句式统计”等信息库。

总之,我们的《当代北京口语语料库》在抽取被试、采集整理等方面都具有其他语料库不可比拟的特点,它将会为汉语本体和社会语言学研究、为北京方言和汉语史研究、为汉语信息处理和数据库语言学研究提供丰富翔实的语料,为对外汉语教学制定教学大纲、编写教材提供口语方面的依据。
 

yinghuang

高级会员
Many tks. It's indispensible for chinese sociolinguistic study.

[本贴已被 作者 于 2006年07月25日 20时05分03秒 编辑过]
 
回复: 北京口语语料免费使用

为什么只能看到十个人的记录?其它的怎么得到?录音带可以听到吗?
 
顶部