【国家现代汉语语料库】的新检索界面Chinese National Corpus

xujiajin

管理员
Staff member
#1
http://www.cncorpus.org/

国家语委语料库介绍



语料库介绍


“国家现代汉语语料库”是由中华人民共和国国家语言文字应用委员会主持建立的一个现代汉语书面语通用平衡样本语料库,它于1993年开始建设。该语 料库的第一批语料数据是1919年至1992年的语料,共7000万字,以后每年递增1000万字,是目前最大的现代汉语平衡语料库。

“国家现代汉语语料库”建设的目标是能客观地反映现代汉语在字、词、句法、语义、语用等方面的全貌。它的应用领域主要有语言文字规范与标准的制定、 语言文字的学术研究、语文教育、语言文字信息处理、语言文字的社会应用等。该语料库的结构设计遵循通用性、描述性、实用性、随机性等原则,从而保证该语料 库的平衡性和代表性。

本系统处理的是国家语委语料库中的2000万字精加工语料,拥有强大的查询功能,能为汉语言的调查、统计与分析提供便捷的服务。

在整个查询系统中,用户可自由选择语料的领域(政治、经济、体育等),并且可以自由限定返回结果的词语数量,同时还能对查询条件进行词性的限定。该系统主要功能特色:

1、支持自定语料库范围 在国家语委现代汉语语料库的分类体系基础上选择所需类别,缩小检索范围。

2、提供普通查询功能 对用户输入进行精确匹配,可设置多条件检索。

3、支持重叠词查询 本系统提供模式检索,输入重叠词模式(用任意字母表示),并可进一步限定其中包含的关键字词,系统将返回语料库中所有满足这些模式的结果。

4、支持高级查询表达式 根据我们定义的语法,用户可进行词性查询、组合查询、短语查询、句式查询、指定距离查询等。

5、支持查询结果进阶处理 包括统计(关键字统计、互信息统计、词频统计)、组合排序等。

6、多种结果显示方式 支持原始语料与已标注语料的显示方式,并提供结果显示窗口的大小设定功能。

语料分类体系


1992年4月27日至29日,国家语委文字应用管理司在京组织召开了现代汉语语料库选材原则专家论证会,在专家充分论证的基础上,于1993年1 月制订出《现代汉语语料库选材原则》。具体选材任务分别由中国社会科学院语言所、北京师范大学中文系和中国人民大学中文系三个课题组承担。选材工作自 1992年底开始,按照通用性、描述性、实用性等原则系统地抽样选择了1919-1992年的现代汉语语言材料7000万字,由人文与社会科学、自然科学 及综合三个大类约40个小类组成。具体类别如下:

1. 人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文 字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、 传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。

2. 自然科学划分为6类:数理、生化、天文地理、海洋气象、农林、医药卫生。

3. 综合类语料由应用文和难于归类的其他语料两部分组成。应用文使用很广泛,主要涉及以下6类:(1)行政公文:请示、报告、批复、命令、指示、布告、纪要、 通知等;(2)章程法规:章程、条例、细则、制度、公约、办法、法律条文等;(3)司法文书:诉讼、辩护词、控告信、委托书等;(4)商业文告:说明、广 告、调查报告、经济合同等;(5)礼仪辞令:欢迎词、贺电、讣告、唁电、慰问信、祝酒词等;(6)实用文书:请假条、检讨、申请书、请愿书等。​

语料来源


语料来源包括教材、报纸、综合性刊物、专业刊物、图书等。每个样本的容量为2000字左右,书籍的抽样字数一般占全书总字数的3-5%,最多不超过 10000字;每本刊物上所选的总字数原则上不超过5000字。到1993年底,课题组完成了语料选材、清单制定和样本制作工作.7000万字语料选材完 成后,各类语料实际比例基本符合《选材原则》中规定的比例,但都有所调整。各类语料所占比例如下:

人文与社会科学类语料占语料总量的59.6%,自然科学类语料占语料总量的17.24%,综合类语料占语料总量的9.36%,取材于报纸的语料,难 于划分门类和语体,因此单独计算,报纸语料占语料总量的13.79%。另外,取材于教材的语料总量有2000万字,已经按学科计入各类语料。

国家语委文字应用管理司于1993年9月21日至24日在北京主持召开了现代汉语语料库选材专家审定会。在京的语言学界、计算机科学界的专家学者 20多人出席了会议。与会专家一致认为,该语料库的选材是国内规模最大的一次,选材论证充分,系统性强。与会专家对选材清单和语料样本进行了认真详细的审 定,一致认为,该语料库的选材符合《现代汉语语料库选材原则》;清单制定和样本制作符合《现代汉语语料库选材实施过程中应遵循的原则和方法》和《现代汉语 语料库选材清单项目与填写说明》中的规定和要求。
 

xusun575

高级会员
#2
回复: 【国家现代汉语语料库】的新检索界面

修复更新的动作还挺快,界面大气,国家级派头,令人佩服!
 

Haiyang Ai

Administrator
Staff member
#3
回复: 【国家现代汉语语料库】的新检索界面

国家级的语料库在线查询系统也应该弄个独立域名才对。 基于IP的地址太难记,而且正常部署不应该使用9090这样的测试开发的接口。
 

iCasino

普通会员
#4
回复: 【国家现代汉语语料库】的新检索界面

英国国家语料库、中国国家汉语语料库、俄罗斯国家语料库,看来一个联合国式的国家级语料库都一一相继登场了,世纪初的盛事啊。其他语种的估计也不远了吧。
 

xujiajin

管理员
Staff member
#7
回复: 【国家现代汉语语料库】的新检索界面

一阵一阵的,这个库经常调整,等等看吧。
 
#9
回复: 【国家现代汉语语料库】的新检索界面

不知什么时候能用 5555555555等着这个汉语语料库作毕业论文呢 这下惨了
 
#13
回复: 【国家现代汉语语料库】的新检索界面Chinese National Corpus

The Buckeye Corpus of conversational speech contains high-quality recordings from 40 speakers in Columbus OH conversing freely with an interviewer. The speech has been orthographically transcribed and phonetically labeled. The audio and text files, together with time-aligned phonetic labels, are stored in a format for use with speech analysis software (Xwaves and Wavesurfer). Software for searching the transcription files is currently being written. The corpus is available to researchers in academics and industry.
 
#15
请问一下各位老师,国家现代汉语语料库能够全文下载吗(分词好的文件)?在哪里可以下载呢(有资源的老师能否向您跪求一份呢)?

由于我有一个词组清单需要查询互信值,准备用antconc进行操作。目前我知道该网站可以提供特定检索项的文本下载,例如查询“接受”一词,返回的所有结果可以进行下载。

由于互信值的计算会考虑整个语料库文本大小,所以我需要整个分词标注好的语料库。不知有哪位老师有资源呢?(非常着急,跪谢各位老师!)
 
顶部