免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

本文由 xujiajin2012-12-11 发表於 "多语种语料库" 讨论区

  1. xujiajin

    xujiajin 管理员 Staff Member

  2. armstrong

    armstrong 高级会员

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    1 UNcorpora.EN.txt UNcorpora.ZH.txt 2 Adopted at the 81st plenary meeting , on 4 December 2000 , on the recommendation of the Committee ( A/55/602/Add . 2 and Corr . 1 , para . 94 ) , The draft resolution recommended in the report 【was】 sponsored in the Committee by: Bolivia , Cuba , El Salvador , Ghana and Honduras . by a recorded vote of 106 to 1 , with 67 abstentions , as follows: 2000年12月4日第81次全体会议根据委员会的建议(A/55/602/Add.2,第94段) 报告中建议的决议草案由下列提案国在委员会提出:玻利维亚、古巴、萨尔瓦多、加纳和洪都拉斯。 经记录表决,以106票赞成,1票反对,67票弃权通过,其结果如下:
    2 UNcorpora.EN.txt UNcorpora.ZH.txt 8 Reaffirming that all human rights and fundamental freedoms 【are】 universal , indivisible , interdependent and interrelated , 重申所有的人权和基本自由都是普遍、不可分割、相互依存和相互关联的,

    许博士,请问一下用BFSU ParaConc 1.2.1得出的上述结果中文件名后的2和8分别代表什么?谢谢!
     
  3. xujiajin

    xujiajin 管理员 Staff Member

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    应该是在相应文本中出现的行数,第2行和第8行。
     
  4. xujiajin

    xujiajin 管理员 Staff Member

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    软件设计和编写过程中,我们认为没必要一定要分词和转成utf-8,也没必要做成xml。中国人做的软件就该让我们用起来尽可能顺手。于是,我们的ParaConc就是这样的,要求生文本、ANSI编码。当然,文本分了词、赋了码也是支持的。
     
  5. armstrong

    armstrong 高级会员

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    谢谢许博士,还有一个问题,昨天下载了BFSU Sentence Segmenter 1.1,操作了几次都发现,生成的文件是空的,不知道是怎么回事,请帮忙看看。谢谢!
     
  6. xujiajin

    xujiajin 管理员 Staff Member

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    既然你在二楼已贴出检索结果,说明你的结果不是空的。最近刚进行过一个一两百人的培训,大家试用了ParaConc,都出结果了。如你的没出结果,请确定你的文本是否合规格。具体文本要求见软件Readme。

    我们对文本要求非常低,不要utf-8,因为没有必要,多此一举。可以不分词。语料文本要对齐,这是平行检索的基本要求,有一行不对齐都出不了结果。文件名务必以.ZH和.EN区别开来。
     
  7. armstrong

    armstrong 高级会员

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    许老师,是这样的,BFSU ParaConc 1.2.1是好用的,我上面的问题是BFSU Sentence Segmenter 1.1试了几次都没有出结果,不知怎么回事?
     
  8. xujiajin

    xujiajin 管理员 Staff Member

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    你描述得不清楚,我不知道你为什么出不来结果。你上传一下文本看看。
     
  9. armstrong

    armstrong 高级会员

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    我将文件加载后,利用BFSU Sentence Segmenter 1.1分割句子,生成一个空文件,即没有分句。
     

    附件文件:

    Last edited: 2012-12-13
  10. armstrong

    armstrong 高级会员

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

     

    附件文件:

  11. xujiajin

    xujiajin 管理员 Staff Member

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    1.1版本应该是有点bug。等有时间处理好了,再重新上传。目前手头工作多,无暇顾及。

    你可用1.0版的进行分句。效果一样。http://www.fleric.org.cn/pub/ss.rar
     
  12. armstrong

    armstrong 高级会员

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    好的,谢谢!
     
  13. 回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    好东西。谢谢许博。
     
  14. 回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    谢谢许老师分享,已经初步掌握,不过还不熟练,总结一下自己的体会:
    1、文本中英要完全对齐
    2、文本命名.EN/.ZH要准确
    3、最好将文本放在一个显著的单独文件夹,以便寻找。
    李老师给我讲ParaConc是处理双语,又顺便介绍PowerConc是处理单语,想问问许老师PowerConc的用途相比于AntConc来说有没有特别之处?
     
  15. xujiajin

    xujiajin 管理员 Staff Member

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    PowerConc的特别之处很多,现在还在测试阶段,等测试好了再跟大家交流。
     
  16. xiaoz

    xiaoz 永远的超级管理员 Staff Member

    回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    If the tool could be made to support different encodings including Unicode of various transformation formats (possibly with automatic encoding detection), it would be even more useful.
     
  17. 回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    许博士,你好,看了你的keyness操作方法,感到BFSUPowerConc功能的强大。但是,用参照语料库生产参照词表的时候,N-gram选的是2,但是出来的结果
     

    附件文件:

  18. 回复: 免费英汉平行语料库检索工具BFSU ParaConc 1.2.1

    在哪里可以下载呢?现在新浪ISHARE上无法下载
     
  19. xujiajin

    xujiajin 管理员 Staff Member

  20. 只能是英汉么