句标与段标

patricx

高级会员
最近我在思考这样一个问题:如何把句子给提取出来呢?比如一本小说;或者是把段落给提取出来呢?
要处理这个问题,就必须先考虑:什么是句子,什么是段落?句子标志和段落标志。
我查了一下:有的学者认为句标有这几个特征:句号(full stop)/大写字母和间隔(space)。
段标除了具有句标的这几个特征之外,还有首行缩进的问题。

我个人这个定义不是很准确,比如:Mr. Li is a good teacher. 就会被识别为两个句子。(Mr.;Li is ...) 这样的例子也太多了,英语里的缩写也很多,比如:Mrs. , Dr. , U. S. , Ph. D, ...
而且上面的句标标准没有把感叹句和疑问句包括在内。

不知道国内外有没有这类的文献可以参考的,尤其是方便计算机识别的句标和段标标准。
 
I think Multilingual Corpus Tool (MLCT) can mark up sentences in English and Chinese.
 
回复:句标与段标

以下是引用 patricx2006-4-19 7:36:08 的发言:
我查了一下:有的学者认为句标有这几个特征:句号(full stop)/大写字母和间隔(space)。
段标除了具有句标的这几个特征之外,还有首行缩进的问题。

不知道国内外有没有这类的文献可以参考的,尤其是方便计算机识别的句标和段标标准。

全自动切分肯定不能100%正确。如果事先做一些手工标记,应该问题不大。比如,段与段之间加空行(或者回车键)。如果text量大,很是件费时的工作。

从programming的角度来看,切分句子时除了那些Mr. Ph.D.等局部问题外还应该考虑到标题的识别,即什么标点符号也没有的问题。此外,如果是从webpage上采集的text, 段首不一定就有一个tab键。
 
In MLCT, Select Annotation - Split sentences/paragraphs in files.
But It appears it only owrks on English texts, not Chinese.
 
可以用文本整理器将所有的全角标点都替换为半角标点。

http://download.ly-www.com/down.php?id=21368
文本整理器
是一款针对中文文章格式而设计的文本编辑软件。对一篇格式不规范的文章,只需点击几个按钮,就可把它整理成规范格式。它提供了大量实用的整理工具,可满足各种不同的整理要求,使你从繁琐的修改工作中摆脱出来。它提供的批量整理功能,可以使你在几分钟内整理上百篇文本,再不用为手上的大量不规范的文本发愁了。
 
Back
顶部