分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

xujiajin

管理员
Staff member
#2
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

Why not compressing the soft and send it to the gmail box?
 
#4
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

谢谢xujiajinarmstrong的建议,刚才试了一下,这里竟可以上传压缩包,不如我就把TextPreProceeing传上来吧.

TextPreProcessing的自动分句功能简直爽呆了:)
自动分句后,替换掉所有的标点符号,得出字符数,除以2,就是句长了。
这一切的前提是不用分词,不用分字,更不需要在编码之间转来转去。

试试看:)
 
Last edited:

戴光荣

普通会员
#5
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

能否请Hi_Jane 把使用心得与大家一起分享?
谢谢
 
#6
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

thanks a lot for sharing this!
 

laohong

管理员
Staff member
#7
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

从詹卫东的个人主页拿来的吧?是按字数统计句长的,统计小学生限时作文是不是达到要求长度蛮好的。

注意文本编码最好是GB的,结果除以2即可。文本编码是很影响统计结果的,如下面这句话:
这一切的前提是不用分词,不用分字,更不需要在编码之间转来转去。

编码不同,句长结果分别是:
ASCII (GB):62
UTF-8:93
Unicode:4


文本预处理程序,将一个普通文本文件进行断句处理,统计句长和频次,按句长降序输出,将普通文本文件转为带有XML标记的文件……

源代码:TextPreProcessing.zip
http://ccl.pku.edu.cn/doubtfire/Cou...g/Source_Code/Chapter_5/TextPreProcessing.zip

测试用文本文件
http://ccl.pku.edu.cn/doubtfire/Cou... Processing/Source_Code/Chapter_5/txttest.zip

描述XML文件显示格式的css文件样例
http://ccl.pku.edu.cn/doubtfire/Cou...Processing/Source_Code/Chapter_5/template.css

执行程序:TextPreProcessing.exe
http://ccl.pku.edu.cn/doubtfire/Cou...urce_Code/Chapter_5/TextPreProcessing.exe.zip
 
#8
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

平平凡凡一帖子,让师父一提,高度就上来了。画龙要点睛,我先画得像龙,师父再补一神笔,这睛才点得成,您说是不是这个理儿.我先在这儿自得一下呵!

谢谢师父。
 

noel

sidere mens eadem mutato
#9
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

merci
 
#12
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

有需要者,请留下信箱,我把使用心得及软件一并寄给您:):)
老师
我等到你的
我最近在写这方面的文章
我的老板在催
我也不是很清楚
给点建议
感激不尽
 
#13
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

谢谢,我也正在找这个,踏破铁鞋无觅处得来全不费功夫,收下了,师父
 
#14
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

果真是好东西啊!分句中是分号就可以算做一句吗?这样用PARACONC,把文本的句子标好号码就可以了吗?
 
#17
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

这个软件做文本分割(比如把一个长文本分成1000字一个的多个文本)时,只能根据汉字数来分,结果是最后一句通常被从中间截断。有没有哪个软件可以切成完整的句子?先谢了。
 
#19
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

谢谢指点。不过WordSmith 需要手工一个一个的到文本中加text separators.
这个设计很不可理解。如果有50篇5000字长文,分成每篇1000字左右的的,个个去找
去加,还不如“cut&paste"简单。

换言之,这样和软件比较合用:

1) 从文本开头(或结尾)处顺序数取一定的字数(如1000字),
2)在1000字处往前(或回溯)数到第一个句子标点(。!?? !), 切断文本,另 存为独立文件
3)重复此一操作,直到文本末尾。

本楼介绍的那个软件程序上加第2)步即可 (可惜我不出来)。

不知以上理解是否正确
 

laohong

管理员
Staff member
#20
回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

先不要怪人家没设计好软件,最好先学会怎么自动在文本中加text separators......

另,程序设计永远和用户的需求有一定的差距的,指望现成的商业软件解决所有corpus问题是不可能的。
 
Last edited:
顶部