[转帖]加个空格好不好?―谈谈词界对中文信息处理的重要性

xiaoz

永远的超级管理员
Staff member
加个空格好不好?――谈谈词界对中文信息处理的重要性

米阿仑

  表面上看,这篇文章要讨论的是一个非常小的问题:书写空格。然而,对所有的语言文字的数据管理来说,这一个小小的空格却是牵一发而动全身的问题。在1999年9月和前些年召开的联码(UNICODE)国际会议上,许多著名信息产业机构派出重头专家参加会议,说明了空格在网络国际化时代的重要意义和本机构的技术政策性见解。所有的编程语言都有字符串处理标准,其中空格是判断字符串起始终止和长度的重要标志之一。在计算机网络通用语言HTML/XML的标准规范里,有专门章节说明空格在网络环境下对数据管理的重要性。

对中文信息产业发展来说,如何看待空格是非常重要的技术发展方向性的问题,甚至牵涉到信息时代文化教育事业的发展进步。对中文要不要一个小小的空格,在美国等地的讨论已经多年。这些年,随着中文信息产业的发展和网络全球化对中文数据需要的增加,海外争辩此起彼伏,在中文故乡,却基本上无人问津。我相信,中文文字书写要不要空格的问题最终不是在美国等地解决,而必须在中国解决。为此,国人有必要对空格的意义有更深入的了解和讨论。

空格和词界:世界通用的数据处理标准

词界,WORD BOUNDARY,是数据管理中最基本的标准参数之一。词界的标志是两个词之间的空格。没有词界,连基本阅读和词典编辑都很难做成,更不要说全面的数据管理了。中文信息处理的词界问题非常突出。例如,如果将“北京东长安街五号”的现代汉语拼音写成:

BEIJINGDONGCHANGANJIEWUHAO

读起来就困难,做字符转换和数据处理也可能会得到错误结果。如果写成:

BEIJING DONG CHANG'AN JIE WU HAO

读起来很清楚,做数据处理就能避免发生错误。利用内码做处理,道理一样。

随着计算机网络全球化和多语言文字化,加上拉丁文字的单字节和中文等东方文字的双字节在网络上混合使用,如何使用空格和词界做国际间的数据交换和管理,就显得更加重要了。

目前,世界上只有极少数语言文字的书写方法没有词界,中文的汉字书写方式是其中之一。从20世纪60年代研制中文计算机输入到现在,三十多年了,中文信息处理技术的发展还是在输入法和储存检索方面打转,难以上升到使用中文做全面的中文数据管理的水平。其中原因很多,汉字书写方式没有词界是其中最明显的牵制因素。为了能使用中文来实行全面的中文数据管理和赶上世界先进水平,中文书写方式需要增加空格和建立词界标准。

建立中文词界标准的重大意义

如果没有词界,那么,数据管理就会发生错误。这里用经常出现的一个情况举例说明。有一个名单:    欧瑛洁小姐,    李冬梅小姐,

  欧阳洪先生,

  李冬先生。

任务:按姓名顺序作分类排序。

不管用不用计算机,也不管用什么方法,作业过程是一样的。这里,我用现代汉语拼音方案来说明。用这个方法对上列名单作排序有3种选择:

一.字基:以单字为基本单位,所有单字连写在一起,没有词界。

二.部份词界方法:姓名和称呼是两个词,用空格分开写。

三.用全部词界方法:姓,名和称呼是三个词,用空格分开写。三种选择导致三种不同的排序结果:

字基,姓名和  部份词界,姓名连  全部词界方法

称呼字字连写  写,与称呼分开写  姓, 名, 称呼

-----------------------------------------------------

李冬梅小姐   李冬 先生     李  冬  先生  李冬先生    李冬梅 小姐    李  冬梅 小姐  欧阳洪先生   欧阳洪 先生    欧  瑛洁 小姐  欧瑛洁小姐   欧瑛洁 小姐    欧阳 洪  先生

-----------------------------------------------------

第一种方法排序的结果显然错了,李冬先生应该排在李冬梅小姐的前面。发生错误的原因:单字堆积书写方式使称呼和姓名混肴不清,自然就按照“先”字的拼音XIAN排在“梅”字(MEI)的后面了。

第二种方法采用部份词界,解决了姓名和称呼的问题,可结果还是有错。“欧阳洪”的“欧阳”是两个字的姓,而在“欧瑛洁”中的“欧”是一个字的姓。一个字的姓应该排在两个字的姓的前面。部份词界方法使“瑛”排在“阳”的后面,造成部份排序错误。

用第三种方法,即全部词界方法,可以得到完全正确的排序结果。

以下是用微软公司WORD 97版和2000版的各种方法做的排序结果:

笔划(递增)  拼音(递增)  数字(递增)  日期(递增)

--------------------------------------------------------

李冬先生   李冬梅小姐  欧瑛洁小姐  欧瑛洁小姐

李冬梅小姐  李冬先生   李冬梅小姐  李冬梅小姐

欧阳洪先生  欧阳洪先生  欧阳洪先生  欧阳洪先生

欧瑛洁小姐  欧瑛洁小姐  李冬先生   李冬先生

--------------------------------------------------------

很清楚,全错了,没有一个排序结果是对的。自称拥有“世界级”技术的微软公司,连这么简单而又明显的数据处理错误都看不出来吗?在微软公司的宣传材料中说:比尔?盖兹非常清楚和重视中文市场的问题,并且通过微软中国研究院吸收了中国最好的人材,为中文信息产业做出了贡献。这样的明显的错误,盖兹先生重视了吗?

这样的明显的数据处理错误,就是微软公司对中国的贡献?让那么多的中国优秀人材去搞所谓“智能输入”,却搞出了连基本数据管理都做不好的东西。这不是在糟蹋中国人才吗?

排序是全面数据管理的入门和基础。如果排序错了,那么,其它数据管理就可能会通通错了。上面排序例子的数据结构和作业要求是最简单的,却足以说明:在做数据管理的时候,是否使用全部词界方法有非常重要的意义。说一个小小的空格重于千钧,并不过份。然而,在中文信息市场,微软公司把人们的注意力引向各种输入法,误使中国投入了大量的财力和人力在输入法上绕圈子绕了将近10年。结果呢?各种输入法被微软公司兼并,控制了市场,而中文数据管理连一个简单的排序都不能正确完成!10年了,除了市场被控和数据管理错误,中国从微软公司那里到底获得了什么?如此巨大的浪费和损失,还不足以引起对微软公司在中文市场的严重技术误导的高度警惕吗?难道中文信息产业还要跟着微软公司在输入法上再转10年?

加个空格,避免歧义

让我们来试读一个句子:

他到台湾国中学作报告。

这个句子可以有不同的读法:

他 到 台湾国 中学 作 报告。

他 到 台湾 国中 学 作报告。

哪个对?如果没有“一个中国”的基本常识,那么,歧义就会发生,不但会发生数据处理错误,而且会发生严重的政治错误。这种困扰麻烦正是没有空格和词界不清所造成的。

在检索的时候,没有空格和词界会增加工作成本,甚至会造成错误结果。例如,在检索《人民日报》文章的时候,我需要有关中非共和国的资料,输入了“中非”,结果,列出的文章有一半左右是无关的。例如:

“……他在家中非机密文件……”中有“中非”字样,而该文章是有关美国政府调查机密是否泄漏的消息,跟中非共和国毫无关系。

“……在讲话中非常强调了……”中有“中非”字样,而该文章是有关国家领导人出席会议做报告的消息,跟中非共和国毫无关系。

为了保证检索结果正确,我需要花费很多时间审阅全部检索结果,把无关的检索结果删掉。如果检索结果是下一步检索的根据,那么,不做审阅和删除就会导致一半左右的检索工作是完全错误的、会造成巨大的浪费和损失。这种错误和浪费与损失,正是没有空格和词界不清所造成的。

在中国政府颁布了《现代汉语拼音方案》之后,曾经有过历时八年的词界问题的比较研究讨论。这里引述一段:“词不但有独立的意义,而且有确定的语音形式。汉语的词,写的时候淹没在汉字之中,不易察觉。但实际上,我们说话的时候,是把一个一个的词分开的。这种区分可以用拼音文字清楚表明。”可见,中文不是没有词界,而是思维和说话的时候有、书写却没有标明。实行词界方法,怎么想、怎么说,就怎么写,能使语言、文字方式和数据管理一致起来,不管用不用计算机,都有统一的标准来保证数据和数据管理的正确性。

采用词界方法是分句方法的继续

大约100年以前,中文书写一直没有标点符号,句子之间没有间隔,几百字的文章甚至几十万字的书,全都是一个个单字连串堆积在一起。那个时候,句读,即阅读在什么地方停顿,是学习中文的基本功(或苦功夫)。用了拼音文字的标点符号和句子间隔的方法,阅读中文方便多了,也准确多了。如果一篇文章或一本书不用句子间隔和标点符号,有多少人能读懂呢?现在,句读方法已经属于历史,标点符号和分句的书写方法成了历时多年的国家标准规范。

从历史角度讲,中文使用词界方法是使用标点符号方法的延续,能够使中文更加准确和简便,使思维、说话、书写和阅读所使用的语言文字方式更趋一致,而且也有利于中文数据处理的标准化和规范化。

从现实讲,中文词界方法的标准雏形早已存在。根据中文信息产业和文化教育现代化发展的需要,1988年7月1日,国家教育委员会和国家语言文字工作委员会联合颁布了《汉语拼音正词法基本规则》,明确规定了现代汉语的词界方法。

这个方法是中国教育、出版、信息科学和语言文字科学等各方面高级专家多年联合努力的结果,也是全国中小学语文教学的基本内容之一。如此,为什么在实际应用中文信息和做中文数据管理的时候,又不用这个方法了呢?

这些年,随着网络国际化的发展,人们对中文信息处理的要求越来越高,国际交流对多种语言文字自动翻译的要求越来越普遍。为了满足这些要求,必须搞中文分词,否则有关的作业根本无法进行。为此,搞中文分词的软件多起来了,投入的人力、时间和资金不少,可是,自动分词中的问题(特别是歧义问题)还是没有解决。我觉得,搞中文分词软件是中文书写不用词界方法造成的一个很大的浪费。如果中文用词界方法,那么,在思维、说话和书写的时候所有的词都已经分好了,根本没有必要再去搞所谓的“智能”分词软件。进一步比较说,如果中文书写没有分句标准,那么,搞“智能”分句就是一场灾难,搞计算机自动翻译几乎不可能。中文书写能使用标点符号作分句标准,为什么就不能加一个空格来作词界标准呢?

任何计算机网络信息产业都有两个基础建设:一个是材料,一个是文字方式。中文信息产业要发展,不但要重视材料科学,而且要重视文字科学。加个空格和建立词界标准,是文字科学基础建设,既能继承中文传统,又能提高中文信息处理的准确性和效率,还能更好地跟世界范围的网络化数据管理接轨、促进中文信息产业攀登更高的科学技术水平,何乐而不为呢?更何况,不管用什么计算机,最终目的是处理和使用数据。所有的数据都是用文字记录的,处理的基本依据是文字方式。

从这一点说,小小的空格是中文信息产业基础建设的一个重要组成部份,我们能不过问吗?

结语

计算机网络和信息服务工业进一步全球化。网络全球化意味着多语言化。文字方式是所有数据管理的CPU。为了迎战,中国能在硬件科学方面冲击CPU,能不能在软科学(例如自己文字方式)方面冲击CPU呢?面对网络进一步全球化和多语言化的新挑战,中国必须有自己的语言文字战略。“山雨欲来”之时,我看到,越来越多的人在中文信息产业的高楼大厦上添砖加瓦,却几乎没有人过问这个高楼大厦的地基,一旦“风满楼”,这座高楼大厦会遭遇到什么命运?我为中国冲击硬件CPU的成就感到非常快乐,在软科学方面(例如文字方式)却时常感到担忧。西方的文艺复兴包括借助外来科学技术实现本地语言文字的现代化。现在,中国要文艺复兴,面临着同样的挑战,无动于衷吗?(2000年1月14日)

原载ChinaByte,2000-01-20


[本贴已被 Ocean 于 2005年08月09日 23时11分29秒 编辑过]
 
回复:[转帖]加个空格好不好?――谈谈词界对中文信息处理的重要性

http://www.yywzw.com/hanzi/wengai/wengai-lbf-001.html

汉字书写系统改进国际研讨会
(2004/6/12-14 南昌)
南昌大学文学院、客赣方言与语言应用研究中心和中国语文现代化学会

论文目录
1 敖小平:中文语音合成系统中的自动分词技术 (阅读WORD文档)
2 曹德和:汉语分词连写的必要性和可行性 (阅读WORD文档)
3 陈永舜:中文信息处理需要的证词法中的“词”
4 冯寿忠:统一两岸(包括港澳)汉字字形的几种设想
5 冯志伟:汉语书写形式的改革是历史的必然和时代的需要
6 傅思泉:浅谈汉语书面语的分词连写
7 高更生:海峡两岸字形的规范
8 高万云:关于中文分词连写的空格
9 郭致平:hZ系y化的理c方案
10 李逊永:从信息语言学、认知语言学和模糊语言学
看中文的分词连写问题
11 林仲湘 林华:试论专有名词的表示法
12 陆丙甫:汉字文本 便读格式 初探 (阅读WORD文档)
13 陆锡兴:“二简”研究
14 孟 华: 汉语分词连写的性质
15 彭泽润: 汉字 文本 词式 书写 改革 的 心理 障碍 分析
16 戚桐欣:电脑中文的发展方向
17 盛玉麒:网络生存方式与汉字书写
18 苏培成:现代白话文的演进
19 王开扬:汉语的自动理解与汉语文本的改革
20 吴琦幸:海外华文媒体书系统的分与合
21 吴文超:汉语分词连写的重要性
22 严永欣:为什么中文分词书写难以成功
23 杨锡彭:字母词与汉字音译词
24 余颂辉等:汉字书写系统五论
 
回复: [转帖]加个空格好不好?―谈谈词界对中文信息处理的重要性

“能不能在软科学(例如自己文字方式)方面冲击CPU呢?”削足适履
 
Back
顶部