分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

本文由 Hi_Jane2007-04-24 发表於 "编程与工具开发" 讨论区

  1. Hi_Jane

    Hi_Jane 会员

    有需要者,请留下信箱,我把使用心得及软件一并寄给您:):)
     
  2. xujiajin

    xujiajin 管理员 Staff Member

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    Why not compressing the soft and send it to the gmail box?
     
  3. armstrong

    armstrong 高级会员

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件



    Yes,please send it to the gmail box.
     
  4. Hi_Jane

    Hi_Jane 会员

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    谢谢xujiajinarmstrong的建议,刚才试了一下,这里竟可以上传压缩包,不如我就把TextPreProceeing传上来吧.

    TextPreProcessing的自动分句功能简直爽呆了:)
    自动分句后,替换掉所有的标点符号,得出字符数,除以2,就是句长了。
    这一切的前提是不用分词,不用分字,更不需要在编码之间转来转去。

    试试看:)
     
    Last edited: 2007-09-08
  5. 戴光荣

    戴光荣 普通会员

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    能否请Hi_Jane 把使用心得与大家一起分享?
    谢谢
     
  6. 清风出袖

    清风出袖 高级会员

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    thanks a lot for sharing this!
     
  7. laohong

    laohong 管理员 Staff Member

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    从詹卫东的个人主页拿来的吧?是按字数统计句长的,统计小学生限时作文是不是达到要求长度蛮好的。

    注意文本编码最好是GB的,结果除以2即可。文本编码是很影响统计结果的,如下面这句话:
    这一切的前提是不用分词,不用分字,更不需要在编码之间转来转去。

    编码不同,句长结果分别是:
    ASCII (GB):62
    UTF-8:93
    Unicode:4


    文本预处理程序,将一个普通文本文件进行断句处理,统计句长和频次,按句长降序输出,将普通文本文件转为带有XML标记的文件……

    源代码:TextPreProcessing.zip
    http://ccl.pku.edu.cn/doubtfire/Cou...g/Source_Code/Chapter_5/TextPreProcessing.zip

    测试用文本文件
    http://ccl.pku.edu.cn/doubtfire/Cou... Processing/Source_Code/Chapter_5/txttest.zip

    描述XML文件显示格式的css文件样例
    http://ccl.pku.edu.cn/doubtfire/Cou...Processing/Source_Code/Chapter_5/template.css

    执行程序:TextPreProcessing.exe
    http://ccl.pku.edu.cn/doubtfire/Cou...urce_Code/Chapter_5/TextPreProcessing.exe.zip
     
  8. Hi_Jane

    Hi_Jane 会员

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    平平凡凡一帖子,让师父一提,高度就上来了。画龙要点睛,我先画得像龙,师父再补一神笔,这睛才点得成,您说是不是这个理儿.我先在这儿自得一下呵!

    谢谢师父。
     
  9. noel

    noel sidere mens eadem mutato

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    merci
     
  10. 回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    老师:
    谢谢哈
    刚才给错拉
    我的邮箱:tanb-ice@163.com
     
  11. 回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    谢谢
    tanb-ice@163.com
     
  12. 回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    老师
    我等到你的
    我最近在写这方面的文章
    我的老板在催
    我也不是很清楚
    给点建议
    感激不尽
     
  13. 回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    谢谢,我也正在找这个,踏破铁鞋无觅处得来全不费功夫,收下了,师父
     
  14. 回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    果真是好东西啊!分句中是分号就可以算做一句吗?这样用PARACONC,把文本的句子标好号码就可以了吗?
     
  15. 回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    谢谢 我正在找这个软件 急用
    bbx-419@163.com
     
  16. Hi_Jane

    Hi_Jane 会员

  17. 回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    这个软件做文本分割(比如把一个长文本分成1000字一个的多个文本)时,只能根据汉字数来分,结果是最后一句通常被从中间截断。有没有哪个软件可以切成完整的句子?先谢了。
     
  18. laohong

    laohong 管理员 Staff Member

  19. 回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    谢谢指点。不过WordSmith 需要手工一个一个的到文本中加text separators.
    这个设计很不可理解。如果有50篇5000字长文,分成每篇1000字左右的的,个个去找
    去加,还不如“cut&paste"简单。

    换言之,这样和软件比较合用:

    1) 从文本开头(或结尾)处顺序数取一定的字数(如1000字),
    2)在1000字处往前(或回溯)数到第一个句子标点(。!?? !), 切断文本,另 存为独立文件
    3)重复此一操作,直到文本末尾。

    本楼介绍的那个软件程序上加第2)步即可 (可惜我不出来)。

    不知以上理解是否正确
     
  20. laohong

    laohong 管理员 Staff Member

    回复: 分享:一个可自动断句,且无需分词或分字即可统计汉语句长的软件

    先不要怪人家没设计好软件,最好先学会怎么自动在文本中加text separators......

    另,程序设计永远和用户的需求有一定的差距的,指望现成的商业软件解决所有corpus问题是不可能的。
     
    Last edited: 2007-12-24