PDA

查看完整版本 : HSK作文语料库!


清风出袖
2005-06-28, 09:32 PM
关于“HSK动态作文语料库”的建设构想
张宝林 崔希亮 任杰

一、建设本语料库的意义和用途
1、HSK高等汉语水平考试自1993年开始正式实施,作文考试作为其中的主观性考试之一,经过11年的积累,已有2万多篇考生作文,字数将近1000万,并且还在逐年增加。这些考生作文对对外汉语教学与研究来说是用途非常广泛的宝贵财富,如果加以充分利用,可以发挥十分重要的作用。然而,长期以来这些财富并没有得到及时的整理和充分的开发,甚至可以说完全没有得到利用,而是常年闲置在仓库中,这是非常可惜的。
“HSK动态作文语料库”正是针对上述情况,由国家汉办立项、由北京语言大学崔希亮教授主持的一个科研项目。
2、“HSK动态作文语料库”将收集自1992年以来(1992年的作文答卷为试测答卷)历年汉语水平考试高等考试中的全部作文答卷,全面而完备;而且,作为动态的语料库,随着汉语水平考试的不断进行,语料的不断增加,语料库将不断得到充实。
本课题拟建语料库的建设规模为:收集1万篇左右考生作文、约400万字的语料。其余部分随后逐步建设。
3、“HSK动态作文语料库”的研制,首先将为汉语水平考试研究提供一个基础平台。例如主观性考试的客观化评分问题,特别是利用计算机进行阅卷评分的问题,是一个亟待解决的问题,又是一个很难解决的问题,其主要原因之一是无法对考生的主观性试题答卷进行规模分析。作文考试是主观性考试,目前采用的评分方法是总体等级评分,评分标准共分5级,又细分为12个小级;由2名阅卷员交叉阅卷,分别打分,最后取平均分作为考生的作文成绩。这样的方法,不仅费时费力,而且往往受到阅卷员的兴趣爱好、欣赏习惯、心态情绪和疲劳程度等多种主观因素的干扰,从而造成评分时的误差,这对考生显然是缺乏应有的公正的。因此,最大限度地降低乃至排除主观性试题评分的主观性,实现客观有效而又快捷迅速的作文评分计算机化,是研制本语料库的首要目的。
要实现这一目标,必须解决两大难题。其一是确立能够全面、客观地反映考生写作水平的作文分项评分标准及各项标准所占的比重,即根据作文评分标准的主要特征,把作文评分标准分解为若干不同的标准项,并按照一定的模式合成分数;其二是计算机能否根据已经确立的作文分项评分标准自动而准确地从考生作文中提取出相关信息,这不仅依赖于汉语本体研究的相关成果,如句法、语段、篇章方面的研究成果,同时也取决于中文信息处理技术的发展水平。
美国ETS(Educational Testing Service) 的作文自动评分系统“电子评分者(Electronic Essay Rater,即E-rater)已经研制成功,其与人工评分的相关在0.87到0.94之间。我们可以借鉴E-rater的理论基础和成功经验,来研究把汉语作为第二语言学习者的作文自动评分系统。
4、“HSK动态作文语料库”是母语非汉语的外国人(另有部分国内少数民族考生)学习汉语的中介语语料库。据我们所知,目前国内外汉语中介语语料库只有一个,即北京语言学院于上世纪90年代中期研制成功的“汉语中介语语料库”。汉语水平考试方面的语料库尚付阙如,中介语的动态语料库即可以随时或定期更新的语料库也属未见。因此,“HSK动态作文语料库”可以填补国内外汉语中介语语料库研制的一项空白。
运用本语料库,研究者可以进行多方面的研究。例如汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、汉外语言对比研究、汉语本体研究,等等。这些研究对提高汉语教学、汉语测试、汉语本体研究的水平,都具有重要意义。而语料库方法的运用,也将使这些研究建立在更扎实的基础上,使研究结论具有更广泛的普遍性和更充分的科学性。因为“语料库方法在语言研究中的一个重要作用就是可以为研究者提供更一般的、经验的语言数据,这些经验数据可以使语言学家做出的结论更客观。”由于对“语言事实的观察是可以定量统计的”,研究中可以避免对某种语言现象使用“频度和罕见度的主观臆测”。(参见黄昌宁、李涓子2002/153-156)通过字、词、句、篇各种层次上的统计分析,可以充分了解考生使用字、词、句、篇的基本情况,哪些字词句使用频度高、哪些使用频度低、哪些容易出错、哪些错误最为典型,等等,从而为汉语教学与测试提供重要的参考与依据。所谓“例不十,法不立;例外不十,法不破”的做法,以语料库的方法来看,未免显得太不足道了。
考生作文中包括考生在使用汉语进行书面表达时出现的种类繁多的语病,包括字、词、句、篇等多方面的使用错误,我们可以把它看作外国人学习汉语的一个“语病诊所”(此名称引自于根元1999/69)。从这个诊所中,我们可以观察到外国人在学习汉语过程中会在哪些方面出现错误,会出现什么样的错误,并对这些错误进行类型分析,对各种类型的错误进行统计分析,从而得出考生在汉语使用方面的错误序列,以及错误程度、频率方面的序列。这对汉语中介语研究具有重要意义,对汉语教学同样具有重要意义,对汉语测试的积极作用也是显而易见的。
作文语料库不仅是一个包罗万象的“语病诊所”,也是考生学习汉语的一个成果展示场所,作为参加高等考试的考生,除存在的错误之外,更多的是对汉语的正确使用。而中介语研究既要对中介语进行描写,又要对中介语的形成过程进行分析;它既重视错,也重视对,从而发现第二语言学习规律(鲁健骥语,转引自于根元1999/72)。
虽然由于缺乏足够的语境,迄今为止,在语用学和话语分析中基于语料库方法的研究还很少(参见黄昌宁、李涓子2002/158),但在书面语语料库中,特别是作文语料库中,已为篇章研究提供了充足的上下文语境,可以进行深入的语段篇章分析。
语料库对教材的编写具有重要意义。它不仅提供了大量的真实例句,而且提供了语句的具体使用环境及用法的多样性,能为语言教学提供更普通的实例,从而有效地避免教材对教学的某些误导(参见黄昌宁、李涓子2002/159)。
5、本语料库是中国汉语水平考试作文考试考生答卷的第一个语料库,将对以往历年考试的作文答卷进行全面整理,将每一张答卷通过电子扫描的方法录入计算机,从而彻底改变以往作文答卷管理中的落后局面。因此,本语料库的建立标志着对考生作文答卷的管理,开始向着规范化、科学化和现代化的方向迈进。
二、本语料库的主要内容
1、原始语料,即历年汉语水平考试高等考试考生作文答卷。有手工录入与电子扫描两种版本。
2、考生相关信息,包括:考生姓名(以代码形式出现)、国别、性别、年龄、母语、汉语学习时间、作文长度、作文分数、口试分数、客观试卷中听力、阅读、综合各部分分数和客观卷总分分数、汉语水平等级、考试时间、考试地点等。
3、字信息,包括:字量及字频统计、错字数量统计、错字类型分析、别字数量统计、别字类型分析、繁体字数量统计。
4、词信息,包括:分词、词量及词频统计、词性标注、词类统计、词类偏误类型分析、词类偏误统计分析、词语使用错误类型分析。
5、句信息,包括:考生使用的汉语基本句型统计、考生使用的汉语特殊句式统计、基本句型使用错误类型统计与分析、特殊句式使用错误类型统计与分析。
基本句型包括:主谓句、非主谓句、动词谓语句、形容词谓语句、名词谓语句、无主句、独词句。
特殊句式包括:把字句、被字句、比字句、连字句、是字句、“是……的”句、有字句、连动句、兼语句、存现句。
6、篇章信息,包括:句间连接手段的统计与分析、句间关联词语使用情况的统计与分析、省略的统计与分析、语义表达手段的统计与分析。
7、编制各种辅助软件、语料库的管理软件和检索软件,解决各个子库及其内容之间的链接问题、各种相关信息的调入与切换问题。
8、探索动态语料库随着语料的不断增加而带来的语料库动态加工管理办法,解决新增语料的加工处理与分类入库问题。
三、本语料库的基本结构
第一级:界面,HSK动态作文语料库;
第二级:粗语料库、精语料库(均以考试时间、地点、考生国籍、考号为序);
第三级:考生信息库、字信息库、词信息库、句信息库、篇章信息库(粗语料库只有原始语料和考生信息库);
四、本语料库的建库原则
1、真实性原则
由于我们把考生作文原件扫描进电脑,作为电子版本存于语料库中,因此本语料库完全保持了考生作文的原貌。考生作文中的全部信息――从汉字的一笔一画到词语的搭配组合,从句子的结构到篇章的安排,不论是正确的表述还是错误的用法,全部得到了保留,从而最大限度地满足了真实性的要求。而在手工录入版本中,我们虽然录入的是正确的汉字,但给每个实际上是错别字的字都做了标记,看到相应的标记,读者即可以到电子扫描版本中去查找对应的文字,以考察考生使用汉字的错误情况。
作为一种参照的对比,我们也对一部分(108万余字,约占全部语料的四分之一)手工录入的考生作文采取了完全“忠实于原作”的录入方法,即对考生作文不做任何修改订正,病句、错字、别字、繁体字、生造字、格式、标点等均原样录入,保持原文原貌。
我们之所以把真实性作为本语料库的首要原则,目的是要为研究者提供最原始、最准确的研究资料。
2、全面性原则
语料是描写和研究中介语的基础,如果语料不完整、不系统,那么在此基础上描写的中介语就不准确(参见于根元1999/88)。本语料库将大大超越“汉语中介语语料库”100万字的规模,达到400万字,以后还将逐步达到1000万字左右。而且,作为动态语料库,随着考试的不断进行,语料还会不断增加,从而为各方面的研究提供广泛而坚实的基础。
我们的最终目标是:将历年HSK高等考试中的作文答卷、包括1992年的试测作文答卷,全部收入语料库,研究者可以查到自1992年以来的任何一次考试的任何一篇考生作文。
3、平衡性原则
按照全面性原则收入的作文语料,首先将建成一个粗语料库,存有历年HSK高等考试中的全部作文的原始语料;在此基础上,再按照考试时间、考试地点、考生国别、考生序号等几个角度,随机抽取相等字数的语料进行精加工,建成精语料库。
所谓平衡性原则也就是语料的等量原则,主要指不同国别、不同母语背景的考生的作文数量及字数相等。遵循这一原则的好处是,可以为研究者在不同母语背景的汉语学习者之间进行比较分析时提供极大的方便。
4、简洁性原则
对语料的各种统计分析结果的说明描述,在保证清楚明确的前提下,尽可能简练。
5、方便性原则
本语料库界面友好,使用方便。按照语料库中的使用说明,可以进行各种相关信息的查询、检索、统计等。除便于读者使用外,对后续语料进行动态加工处理也是非常方便的。
6、开放性原则
建设本语料库的根本目的是促进国内乃至全球汉语教学事业的发展,为此,我们愿意为广大汉语教师和研究者提供一个基础平台,为对外汉语教学和研究服务。本语料库建成后将交由国家汉办提供给对外汉语教学的同行们使用,并在国家汉办允许的前提下,把它放在北京语言大学科研互动网的网页上公开展示,供对外汉语教学领域的教师和研究者免费浏览、使用(仅限于非商业目的),也向对汉语教学和对汉语研究感兴趣的其他各界人士免费开放(同样限于非商业目的)。我们认为,使用本语料库的人越多,才越能体现我们工作的价值,也才能真正发挥本语料库的作用。
五、一些可预见问题的处理方法
1、错别字的处理
在作为参照的对比的那部分语料中,为了保持语料的真实性,在进行语料录入时必须“忠实”于原作,保持语料文本的本来面目,所有句子(包括病句)都必须按照原样录入,错别字也必须“将错就错”,而不许“改邪归正”。
别字好办,错字则需要利用造字程序进行造字。
如实录入错别字可能造成的问题是,在利用计算机软件对语料进行分词处理和词性标注时,遇到错别字会无法处理或做出错误的处理。
我们准备采取的解决方法是,在遇到错别字时,先录入正确的字,然后再录入错别字并以括号标出:错字用中括号标示,别字用大括号标示。
例1、罚[]款,表示把“罚款”的“罚”写成了“”。
例2、追[]求[],表示把“追求”写成了“铤佟薄
例3、个[亻+个]人,表示写“个人”的“个”时多加了一个“单人旁”。
例4、卫[卫-一]生,表示写“卫生”的“卫”时丢掉了一“横”。
例5、提{题}高,表示把“提高”的“提”写成了“题”。
例6、导致{至},表示把“导致”的“致”写成了“至”。
录入正确的字是为了保证程序能够正确地自动分词和标注词性;录入考生的错别字是为了保持作文原貌。
需要说明的是,括号连同其中的错别字,都可以通过计算机程序自动删除,也可以自动恢复。这样,我们既保留了考生作文的原始面貌,可以对学生的错别字进行检索统计,又可以在分词、标注词性、以及词句篇章处理等无需显示学生的错别字时,将这些错误信息删除,以便于迅速而顺利地进行相关处理。
2、标记符号
[ ]:错字标记,用于标示不成字的字,笔画部件不完整或多余的字。如:[]款(罚款)、[亻+个]人(个人)。
{ }:别字标记,用于标示把甲字写成乙字的情况。如:{题}高(提高)、导{至}(导致)、磁器(瓷器)。
{FT}:繁体字标记,用于标示繁体字。如:记忆{FT}、营养(FTB)。
{PY}:拼音字标记,用于标示以拼音代替汉字的情况。 如:缘{PYyúan}分。
{KQ}:空缺字标记,用于标示空着某字不写的情况。
{V}:错误标点标记,用于标示错误的标点符号。如:我家周边的美丽风景,{ V、}。
{W}:空缺标点标记,用于标示应用标点符号而未用的情况。如:周围的环境很安静{ W,}生活也非常平凡。
{S}:多余标点标记,用于标示不应用标点符号而用了的情况。
{CJ}:病句标记,用于标示错误的句子。
{CP}:篇章错误标记,用于标示篇章错误。
3、分词与词性标注
中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。当前汉语信息处理的主战场已从“字处理”转移到“词处理”。由于中文文本是按句连写的,词间无间隙,因而在中文文本处理中,首先遇到的问题是词的切分问题。按句连写转换为按词连写,词的正确切分是进行中文文本处理的必要条件(参见刘开瑛2000/2)。
词是语言中最小的能独立运用的单位,利用计算机把汉语的一个句子、一篇文章、一部著作中的单词,逐一地切分出来,才有可能对汉语进行进一步的分析。……词是汉语语法和语义研究的中心问题,也是汉语自然语言处理的关键问题(参见冯志伟2001/109)。对本语料库来说,除字处理之外,对词、句、篇章的处理都要在词的基础上进行,因此,分词在本语料库的建设中具有十分重大的意义。
理想的分词系统应该具有广泛的开放性、较高的通用性和实用性。鉴于汉语的词与语素及短语的界限不甚分明,以及歧义字段、未登录词(包括中外人名、中国地名、机构组织名、事件名、货币名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语)识别上的困难,以及语缀、动词重叠形式切分后语义解释上的困难(参见刘开瑛2000/2,宋柔1997),我们主要采用词典匹配的方法进行自动分词,自动标注词性,然后人工校对;并根据最终分词结果补充分词底库。根据初步的试验性研究,利用我中心现有的8000词词库进行分词处理,效果还是比较理想的。
存在的问题之一是:学生的词语错误可能会造成分词及词性标注的错误。例如考生把“世界”写成了“界世”,“范围”写成了“围范”,“解决”写成了“决解”,“时间”写成了“间时”,“恶劣”写成了“劣恶”,等等。遇到这种情况,分词程序大概会把它分成两个词。一个平行的例子是,清华大学孙茂松在对新华社新闻语料库XH-CORPUS中的汉语搭配进行计量分析时,由于词典中没有“调控”一词,自动分词系统因而把“调控能力”切分为“调/控/能力” (参见黄昌宁、李涓子2002/195)。为了避免此类问题出现,借鉴有些校对系统将含有易错字的词和词组作为分词单位的做法(参见宋柔1997),我们在校对语料时遇到这样的词就把它记下来,分词前输入词表,从而保持分词的正确。这个方法虽然笨一点,但预期可以保证分词的正确。
4、句法分析
1)断句
计算机依据六种标点符号,即:逗号、分号、句号、问号、感叹号和冒号,自动断句;并进行人工干预。
2)句法分析
计算机根据词性标注,进行动词谓语句、形容词谓语句、名词谓语句、主谓谓语句等基本句型的分析;
根据关键词进行特殊句式的分析。例如:把字句、被字句、连字句、比字句、有字句、是字句、是……的句,等等。
5、篇章处理
计算机根据词性标注及若干定义,进行关联词语的统计分析。
省略分析。
6、软件编制与调试
语料检索软件。符合特定条件的检索与模糊检索,主题检索和全文检索;各种检索情况的相关统计。
具有自学习功能的动态语料库管理软件。
六、本语料库的局限性
1、使不同类型的语料数量均衡是本语料库的一个基本原则,是我们努力追求的一个目标,但有些国家的考生很多,有些国家的考生则较少,有些国家的考生甚至很少;因为考生少,所能收入的作文数量自然有限,因此,所谓“平衡性原则”只能是相对而言的。
2、由于本语料库主要是利用计算机进行自动分析,因此在句法和篇章方面所能进行的分析以及分析的深度,也是有限的。

*本文得到国家汉办科研资助,项目批准号:HBK01-05/023。本文曾在北京语言大学汉语水平考试中心的学术活动中交流讨论,郭树军、张凯、谢小庆等先生的一些意见对笔者颇有启发,谨此致谢。

参考文献
储诚志、陈小荷1993,《建立“汉语中介语语料库系统”的基本设想》,《世界汉语教学》,第三期
冯志伟2001,《计算语言学基础》,商务印书馆
黄昌宁、李涓子2002,《语料库语言学》,商务印书馆
刘开瑛2000,《中文文本自动分词和标注》,商务印书馆
宋柔1997,《关于分词规范的探讨》,《语言文字应用》,第三期
于根元(主编)1999,《应用语言学理论纲要》,华语教学出版社
来源:中国语言文字网

清风出袖
2005-06-28, 09:37 PM
哪位方家有关于这方面的新信息比如是否这个语料库已经建成或已经发布的信息!我看TOFEFL有些机器改作文只是利用作文的表面信息,这样做可靠么?语篇内部的衔接能用表面信息代替么?请方家赐帖!

Haiyang
2005-06-28, 10:33 PM
建立语料库太辛苦了,切身体会啊!

清风出袖
2005-06-29, 06:58 PM
i can't agree with you more on that!

hancunxin
2005-06-30, 09:18 PM
辛苦了!

xujiajin
2005-06-30, 09:51 PM
大家可以将一些经验教训拿来交流一下。如何?

xujiajin
2005-07-08, 09:53 PM
以下是引用 龙三先生 在 2005-7-8 20:10:58 的发言:

字符、词语、段落、短文,……都编上码,就好办了。




不知龙先生从何谈起?
如果有好的经验不妨教教大家。谢谢。

xiaoz
2005-07-08, 11:55 PM
无聊至极!
I am fed up with this way of talking.

xujiajin
2005-07-09, 12:40 AM
黄牌警告 to 龙三先生

其实我们是十分欢迎与语料库相关和基于语料库的研究方面的信息和观点的,但是我们注意到id为龙三先生的网友似乎更愿意利用我们的网络资源宣传自己的某些与本论坛并不太相关的研究成果。

此前我们已经多次注意到龙三先生所发的贴子和参加的讨论,也曾经提出过忠告,甚至在上面第8楼的帖子中将你引上“正道”,似乎多有徒劳。

所以,我们在此向你提出警告并保留将你除名的权利。

xujiajin
2005-07-09, 02:52 PM
以下是引用 语料库 在 2005-7-9 12:58:05 的发言:


还是回到你的输入法论坛去吧。我们真是没功夫跟你后面整天扫垃圾。

xiaoz
2005-07-09, 09:26 PM
龙三的化身,屡教不改。一并除名。

carol
2005-07-15, 02:28 PM
有谁知道HSK作文语料库是哪一年开始启动的,是不是已经出成果了,到哪能查到相关资料呀。想拜读一下。谢了!

carol
2005-07-15, 02:32 PM
谁能告诉我这个语料库是哪一年开始建的,进展如何,是不是已经出成果了,在哪能查到呀。有劳各位! 谢谢

清风出袖
2005-07-20, 01:17 PM
i want to know more about it as well! how do you think about the issue of scoring papers with machines? do you think the machines can replace human beings in scoring or not?

清风出袖
2005-07-20, 01:17 PM
i want to know more about it as well! how do you think about the issue of scoring papers with machines? do you think the machines can replace human beings in scoring or not?

carol
2005-07-28, 09:59 AM
whether machines can score papers , this also depends how well human beings can design the program and how well human beings can do with this . I also think machines can replace human beings in scoring partially, but not completely, since there are varieties of situations and settings in which language is used.

Haiyang
2005-07-30, 03:57 PM
test

清风出袖
2005-07-31, 10:22 PM
what do you mean by test? I thought that you got something important to release about HSK scoring.

xiaoz
2005-08-01, 03:58 AM
the test message was posted to test the database.

xiaoz
2005-08-01, 04:00 AM
The database error occurred because page 3 is not available this moment.

清风出袖
2007-08-28, 10:00 AM
贴:北语中介语语料库可以注册使用


“HSK动态作文语料库”说明
1
“HSK动态作文语料库”是由北京语言大学崔希亮教授主持的一个国家汉办科研项目。项目编号为:HBK01-05/023。
2
“HSK动态作文语料库”是母语非汉语的外国人参加高等汉语水平考试(HSK高等)作文考试的答卷语料库,收集了1992-2005年的部分外国考生的作文答卷,共计10740篇,约400万字。

3
语料库提供给用户的作文语料有两种版本:标注语料和原始语料。标注语料指的是在考生作文答卷上经人工标出各种中介语偏误的语料,原始语料指的是考生原始作文的电子扫描语料。
4
作文语料的加工处理包括下列 内容:
字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、外文词标注、漏字标注、多字标注,以及各种用字错误统计,总的字数字频统计等。
标点符号处理:包括错误标点标注、空缺标点标注、多余标点标注,以及各种标点符号的相关统计。
词处理:包括错词标注、缺词标注、多词标注、离合词错误标注、外文词标注,以及各种用词错误的相关统计,总的词数词频统计等。
句处理:包括各种特殊句式的错误标注,句子成分残缺或多余的错误标注,语序、动词重叠等方面的错误标注,以及各种句子错误的相关统计。
篇章处理:包括句间连接手段的错误标注,语义表达方面的错误标注,以及篇章错误的相关统计。
为了方便用户更充分地使用这些作文语料,语料库还提供了历次考试的时间、地点和作文题目,以及下列考生信息:考生国别、性别、作文分数、口试分数、客观试卷中听力、阅读、综合表达各部分分数和参加高等汉语水平考试的总分分数、所得到的汉语水平证书的等级等。
5
本语料库在建设过程中,特别注重语料的真实性与平衡性,标注的全面性与科学性,软件系统的方便性与快捷性。
6
本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库。运用本语料库中的作文语料,可以进行对外汉语教学的多方面研究。例如汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、与对外汉语教学相关的汉语本体研究等。这些研究对提高汉语教学、汉语测试、汉语本体研究等方面的水平,都具有重要意义。
7
建设本语料库的根本目的是为用户提供一个考察和研究的基础平台,为对外汉语教学和研究服务,促进国内乃至全球汉语教学事业的发展。因此,本语料库将 免费提供给广大对外汉语教师、研究人员、对外汉语相关专业的研究生和本科生、以及对汉语教学和研究感兴趣的其他人士使用。我们衷心希望听到相关领域的专家和各界用户的宝贵意见,并在此基础上不断改进、完善语料库,以更好地为广大用户服务。
8
本语料库的总体设计由崔希亮负责,语料的录入、扫描和标注工作由张宝林负责,系统设计和语料上网前的预处理由任杰负责,系统软件的研制由荀恩东负责,考生相关信息的整理由李航负责。
参加语料标注工作的有陈淑芳、陈晓雷、窦玉荣、冯雪丽、付娜、付云华、高会、郭文静、 韩菡、 郝晓庆、黄冠颖、黄燕、 简丽、 李华、李犁、李妮妮、李肖婷、李志娜、梁婷婷、刘海霞、 刘建霞、 刘君、刘琳、 刘云、 逯秋红、吕婷婷、南旭萌、彭岚、彭丽、齐冬梅、商秀坤、史慧超、孙剑、孙群、 田旭红、 王洁、 王蕾、 王丽、王倩、 王小玲、 王玉芝、王真、徐灵婵、杨宇枫、易平平、袁欣、张利会、张珊珊、张颖、赵焕改、朱玥。
参加对语料标注情况进行审查工作的有陈淑芳、陈晓蕾、刁徐君、窦玉荣、付云华、黄冠颖、黄燕、姜桂荣、李华、李志娜、梁婷婷、刘琳、 刘云、 逯秋红、彭丽、商秀坤、孙群、王倩、杨力铮、张颖、赵淑丽、周岚钊。
张宝林、任杰参加了语料库总体设计工作。
田清源、李航参加了软件系统设计工作。
修驰、郑仲光参加了软件系统的研制工作。
姜桂荣、王倩、张颖、梁婷婷、赵淑丽参加了 语料上网前的预处理工作。
高蕊、李桂梅、李卉、朱宏一参加了前期的部分语料标注工作。
9 本语料库的词性标注是依据教育部语言文字应用研究所研制的《信息处理用现代汉语词类标记规范》进行的,肖航先生帮助我们完成了自动分词和词性的自动标注工作。
10
感谢国家汉办、教育部语言文字应用研究所和北京语言大学汉语水平考试中心对本课题的大力支持。

“ HSK动态作文语料库 ” 课题组
2006年12月

清风出袖
2007-08-28, 10:01 AM
语言信息处理研究所网站
http://202.112.195.8/index.asp

如果这个语料库能够像英语学习者语料库CLEC等一样公开发售就太好了,不过现在也不错,能够在线检索,有一点要说的是,其实很多汉语同仁也在做语料库,可是很少在结项以后拿出来出版,很遗憾。不知道谁会开这个先河?期待中。

清风出袖
2007-08-28, 10:02 AM
“HSK动态作文语料库”语料标注及代码说明
“HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。
1 、字处理(包括标点符号)

[C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:
后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:
1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……
[BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。
例如:勤奋、[BC,]刻苦的精神。
[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。
例如:周围的环境很安静[BQ,]生活也非常平凡。
[BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。
例如:我家周围的[BD,]美丽风景。
2、词处理:(包括成语)

{CC}:错词标记,用于标示错误的词和成语。包括4种情况:
1)把词的构成成分写错顺序的。
把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。
例如:首先{CC先首}、众所周知{CC众所知周}。
2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。
标示方法同上。
例如:
虽然现在还没有实现{CC实践},……
它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。
3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。
例如:
农作物{CC农产物/农物}、农产品{CC农作品}
……但长期来看造成环境污染,破坏自然生态{CC目态},……
绿色食品的好处在于吃这些食品后在身体里没有农药的残留量{CC潜留量}。
4)词语搭配错误。包括词性、音节等方面的搭配错误。
例如:
最好的办法是两个都保持{CC走去}平衡。
我也回{CC1回去}沈阳。
吃这种东西会{CC1可以}得{CC1得到}病{CC1疾病}。
{CLH}:离合词错误标记,用于标示各种和离合词相关的错误。标在有错误的离合词的后边,表示前边的离合词用法有误。
例如:
……我快要毕业{CLH}大学{CQ了}。
虽然这么[L]多年都没见面{CLH}过,……
……我对哈尔滨{CJ-zy很}感兴趣。有观光{CLH}哈尔滨的宿愿。
{W}:外文词标记,用于标示以外文词代替汉语词的情况。把外文词移至{W}中W的后面,并在{W}前填写相应的汉语词。在W和外文词之间填写汉语词的字数。
例如:
非洲{W2Africa}、爵士乐{W3jazz}。
……教我工作的方法{W2ABC}。

{CQ}:缺词标记,用于标示作文中应有而没有的词。在缺词之处加此标记,并在{CQ}中CQ的后面填写所缺的词。
例如:
这就{CQ要}由有关部门和政策管理制度来控制。
……有的农民{CQ在}不使用化肥和农药的情[B精]况下[BD,]养农作物,……

{CD}:多词标记,用于标示作文中不应有而有的词。把多余的词移至{CD}中CD的后面。
例如:
……然后肯德基的收入有所增加{CD了}。
中国政府应该采取良好的措施来管理农业{CD方面},……
但我觉得{CD按照}上面所写的方法是现在很多人或国家用的方法。
词处理中需要注意下列问题:
1)因介词、方位词等的缺少或多余造成的结构不完整,助词的错用、多用、漏用,词性误用等,均视为词的错误。
例如:
随着社会{CQ的}发展,人们{CQ对}吃的东西很重视。
在这个过程{CQ中}……
特别是非洲{CD的话},问题很大的。

2)结构助词“的” 、“地” 、“得”混用:按错词处理。
例如:
按照人们的要求不用化肥和农药的话,产量会大大地{CC的}下降。
我认为当你很饿的时候,什么东西都吃得{CC的}下。
孩子们饿得{CC地}大哭小叫,……

3)该用汉语数字而用阿拉伯数字的,一律按错词处理。
例如:
那应该怎样解决呢?所以我想出了一{CC1}个办法,少用化肥和农药。
把“十五”写成了“一五”,应把“一五”整体按错词处理,而不能仅仅把“一”处理为别字。

4)错词、多词、成分赘余的一个标注符号中可以包括两个或两个以上的词。
例如:
我想任何人{CC每一个}都不要有浪费食品的习惯,……(每/一/个)
没有{CC2重视做未经}污染的食品就是绿色食品。(重视/做/未/经)

5)原文字数和改后字数不一致的,须在括号中CC之后且紧靠CC处加一个阿拉伯数字,表明改后的字数。
例如:
战[Pzhan]争中最困难的人是没有力气的孩子和老人{CC5老弱子}。
所以我认为首先农民可以使用天然肥料{CC4化肥},代替化肥来种植农作物……

6)不清楚或无法理解的词用{CY}标示,表示“存疑”,标在该词的后面。
例如:
虽然这么[L]多年都没见面{CLH}过,但我和他们的忆惯{CY},是忘不了的。
3、句处理:
{CJ}:病句标记,用于标示错误的句子。一般标在有错误的句子之后、该句标点之前,并用小写汉语拼音字母简要标明病句的错误类型。
例如:
他把那本书看{CJba}。
我认为我们先尽量地[B的]产出农作物给他们,先给他们不挨饿{CJjy}。
如果有人批评这是太奢侈{CJxw},……
句子错误类型代码:
{CJba} : 把字句错误
{CJbei} : 被字句错误
{CJbi} : 比字句错误
{CJl} : 连字句错误
{CJy} : 有字句错误
{CJs} : 是字句错误
{CJsd} : “是……的”句错误
{CJcx} : 存现句错误
{CJjy} : 兼语句错误
{CJld} : 连动句错误
{CJshb} : 双宾语句错误
{CJxw} : 形容词谓语句错误
{CJ-} :句子成分残缺错误标记,用于标示由于成分残缺造成的病句。在短横后边标明所缺成分的名称,该名称用小写代码表示;在小写代码之后填写所缺的具体词语。标在成分残缺之处。
例如:
为了增加{CC满足}粮食,{CJ-zhuy人们}使用了化肥和农药,这样产量就会大大提高。
这样的活动{CJ-sy开展}以来,肯德基的垃[B拉]圾[C]总量大大降低。
……那两种{CC个}东西就容易伤害人类的{CJ-dy健康}系统。
从具体{CJ-zxy情况}来看,……
{CJ+} :句子成分多余错误标记,用于标示由于成分多余(赘余)造成的病句。后边用小写代码标明多余成分的名称,并把所多余的具体词语移至该名称的后面。标在成分多余之处。
例如:
这是我们{CJ+dy做人}的责任。
而且研究{CJ+buy下去}产量能提高的办法。
而且{CJ+zy正在}还死去好多人。
句子成分采用层次分析法的观点,共8种:
{CJ-/+zhuy} :主语残缺或多余
{CJ-/+wy} :谓语残缺或多余
{CJ-/+sy} :述语残缺或多余
{CJ-/+by} :宾语残缺或多余
{CJ-/+buy} :补语残缺或多余
{CJ-/+dy} :定语残缺或多余
{CJ-/+zy} :状语残缺或多余
{CJ-/+zxy} :中心语残缺或多余
{CJX} :语序错误标记,用于标示由于语序错误造成的病句。标在语序错误的词语的后边。如果是相邻的两个成分语序错误,按照自然顺序,把{CJX}标在前一个成分的后边。
例如:
大多数{CJX}这些人生活{CC2活}在很不好的地方,……
可是这两个问题同时{CJX}要解决非常不容易,……
现在每个人很重视健康,受欢迎{CJX}绿色食品。
{CJZR} :句式杂糅错误标记,用于标示把两种不同句式、两种不同说法混在一起的病句。标在句子末尾,标点之前。
例如:
这个问题不可能一两年解决的问题{CJZR}。
现在,全世界流行是绿色食品{CJZR}。
每次吃对身体有害于健康的东西{CJZR}。
因为,人们的必生存之一中最重要的是饮食{CJZR},……
{CJcd} :重叠错误标记,用于标示句中词语的重叠错误,包括重叠方式上的错误,也包括不该用而用重叠,或该用而不用重叠的情况。标在出现重叠错误的词语之后。
例如:
而对生产者来说,尽量不用化肥和农药,在出货之前,进[C]行洗洗{CJcd}。
还有我们{CQ应}对绿色食品研究研究{CJcd}。
{CJgd} :固定格式错误标记,用于标示固定格式搭配上的错误。
例如:
“一……就……”缺少“一”或者“就”。
现代社会应当认“保护自己,尊重其他人”为口号{CJgd}!

{WWJ} :未完句标记,用于标示没写完的半截子的句子。标在未完成句的末尾处。
例如:
只是全球{WWJ}
最后国家政府不考虑经济问题、积{WWJ}
不知道什么时候会普及起来,但是我认为这还是不是个{WWJ}
{CJ?} :句处理存疑标志,用于标示错误类型不清楚的、或错误类型标注很不方便的、或句义不明且有语法错误的的病句。标在存疑病句之后、该句标点之前。
例如:
地球上,有的地方还在“饥饿”来艰苦{CJ?}。
还要想每个人的健康是帮助饥饿人的办法越来多健康的人会越来多帮饥饿的人{CJ?}。
把化肥可以取代{CC代取}用草、剩饭做的自然肥料{CJ?},把农药也可以取代{CC代取}喜欢吃害虫的动物{CJ?}。
4、篇章处理:(包括复句)
{CP} :篇章错误标记,用于标示篇章错误。大括号的前半和后半分别表示有错误的篇章的起点和终点,在起点处标CP,在终点处标P。即:{CP……,……。……,……。P}
所谓篇章错误,主要指句子和句子之间在衔接方面的错误。最典型的情况是每个单句都正确,但作为一个整体来看则句子相互之间缺乏联系,不能构成一个紧凑、自然、流畅的成段表达。而产生这种情况的原因,可能是语义方面的,也可能是连接方式方面的。
例如:
{CP我们经过了漫长的历史,一些没有用的人死于历史中,挨饿其实是可以克服的。P}
(前后句意义上无关)
{CP吸烟对孩子们{CJ-sy有}不好的影响,这一观念他会不会知道呢?所以我早就不理他了。P}
(用了表示因果关系的连词,但句子之间并不存在因果关系)
{CP目前,随着人们生活水平{CQ的}提高,{CJ-zhuy人们}{CD就}对饮食品很重视。就{CJX}{CQ用}未经污染的农产品加工的食品叫做“绿色食品”。P}
(前后句之间缺少过渡句)
{CP我以前看报纸的时候,有一篇关于农药的文章。他说,一般的食品,比如说,米,蔬菜、水果等{CD的}东西,好好儿洗一下就行了,不用担[B但]心。P}
(“他”指称不明,使两句之间失去联系)
5、其他相关问题说明:
1)标注的顺序优先原则:从大到小,即:篇——〉句——〉词——〉字。
篇章错误中含有句、词、字错误的,错句中包含词、字错误的,词中包含字的错误的,均应按照从大到小的顺序依次处理,分别标注。
对同一个错误,能按篇章错误处理的即按篇章错误处理,否则按句式错误处理,其次按句子成分错误处理,再次按词的错误处理,最后按字的错误处理。
从句式的角度看,把字句缺“把”、被字句缺“被”、有字句缺“有”、是字句缺“是”、“是……的”句缺“的”等,均按特殊句式错误处理,而不按成分残缺或缺词处理。换句话说,有些错误虽然可以按句子成分错误或错词处理,但如果是涉及某种特殊句式的问题,则一般优先按句式错误处理。
从词的角度看,句中所缺之词如果涉及某种句式,则标为错句;虽然不涉及句式,但可以充当某种句子成分,则应按成分残缺处理;与句式、成分都无关的才按缺词处理。
例如:
如果我的祖国{CC母国}是西方的先进国的话,我选“绿色食品”。{CP如果我不是西方先进国的人,而且缺少粮食国家的人的话[BQ,]不选“绿色食品”[BQ。]P}
(复句中关联词语的使用错误按篇章错误处理,而不视为错词或别字)
我对这个问题以下几个观点{CJy}。
(该句应为有字句,所以按错句处理,而不按缺述语或缺词处理)
对于非洲来说{CC来看},这是还不够{CJxw}。
(汉语中形谓句无需用“是”,所以按错句处理,而不按多述语或多词处理)
我认为这种{CD的}现象,……在很多人身上{CJ-zy都}会有的。
(“都”可以做状语,所以按成分残缺处理,而不按缺词处理)
从{CC对}现在的情况来说,让大家去吃“绿色食品”是太早了{CC的}。
(正确的说法并不是“是……的”句,因而按错词处理,不视为错句)
目前{CC目先}、祖国{CC母国}。
(“目先”、“母国”,作为词是不存在的,属用词层面上的错误,所以按错词处理,而不视为别字)
现在各个[B各]国家都有“绿色食品”。
(考生知道有“各个”一词,但误将“个”写成了“各”,所以按别字处理,而不视为错词)
2)同一个错误有两种标注方法的,可以把两种标法都标上,中间用斜竖线分开。
例如:
随着现代化{CJ-dy科技的/CJ-zxy的发展}
电子邮件是很方便{CJxw}/{CJsd}!
3)无需处理的情况:

分段错误,指该分而未分段、或不该分而分段的情况。不予处理。

内容上有错误,或表意不清楚,或修饰语太长,但语法上不错的句子,都不必处理。

例如:
我认为吃“绿色食品”会损害{CC害}人类的健康,也会造[C]成污染。那是因为在绿色食品中含有{CC有含}很多化学{CQ物质},如化肥和农药。
(对“绿色食品”的概念理解错误)
这也是个令人深思的问题,我觉得这个问题比绿色食品的问题重要得多。不挨饿的重要性绝比不上绿色食品问题,我认为不挨饿是第一位的。
(前后句观点自相矛盾)
有高机系的国家也可以帮助还很落后的国家决解这个问题。
(“高级系”概念不清)
我们常常能看到贫穷而且没有吃的粮食而在山上找上一般的人不能吃的东西吃的人。
(定语太长,表达罗嗦,但意思不错)

maodou
2008-10-23, 01:35 PM
I am doing a research on wrrtings, so the set of information here is great! Hope I can get help from you guys later!