Collocator和Colligator软件beta版

williamJia

开放语料库项目
这是我为许家金等老师最新编写的2个小软件,目前还在测试阶段,欢迎大家试用!
附件中包含一个演示视频,录得不太好,语无伦次,请大家将就使用!

About BFSU Colligator 2.0 beta:

Colligator 2.0 is a re-write of Colligator 1.0, a previously released colligation extraction and analysis tool. Colligator 2.0 was programmed by Mr Yunlong Jia (William Jia), and designed by Dr Maocheng Liang and Dr Jiajin Xu. The development of Colligator 2.0 is partly supported by the Ministry of Education funded project "A corpus-based study of discourse features of Chinese learners' spoken English".

Please cite the program as:

Liang, Maocheng, Jiajin Xu & Yunlong Jia. (2009). Colligator 2.0: A colligation extraction and analysis tool. Beijing: The National Research Center for Foreign Language Education, Beijing Foreign Studies University.

XU, Jiajin & Wenxin Xiong. (2009). Learner corpus based colligation research: Concepts, methods and sample analyses. Computer-Assisted Foreign Language Education in China, (3): 18-23.
许家金、熊文新,2009,基于学习者英语语料的类联接研究:概念、方法及例析,《外语电化教学》(3):18-23。


Colligator 2.0 can be used freely for non-profit research purposes. The software comes on an "as is" basis, and the authors will accept no liability for any damage that may result from using the software.

Bug reports will be highly appreciated and should be sent to WilliamJia@opencorpus.org.

-------------------------------------------------

About BFSU Collocator 1.0 beta:

Collocator 1.0 is a collocation extraction tool, which deals with both raw and POS-tagged English texts. Collocator 1.0 was programmed by Mr. Yunlong Jia, and designed by Dr. Jiajin Xu. The development of Collocator 1.0 is partly supported by the Ministry of Education funded project "A corpus-based study of discourse features of Chinese learners' spoken English".


Please cite the program as:

Xu, Jiajin & Yunlong Jia. (2009). Collocator 1.0: A collocation extraction tool. Beijing: The National Research Center for Foreign Language Education, Beijing Foreign Studies University.

Collocator 1.0 can be used freely for non-profit research purposes. The software comes on an “as is” basis, and the authors will accept no liability for any damage that may result from using the software.

Bug reports will be highly appreciated and should be sent to WilliamJia@opencorpus.org.
 

附件

  • BFSU Colligator 2.0.rar
    630.1 KB · 浏览: 1,309
  • BFSU Collocator 1.0.rar
    634.5 KB · 浏览: 797
回复: Collocator和Colligator软件beta版

软件截图
 

附件

  • Colligator 2.0.jpg
    Colligator 2.0.jpg
    82.9 KB · 浏览: 133
  • Collocator 1.0.jpg
    Collocator 1.0.jpg
    85.9 KB · 浏览: 93
  • About Colligator 2.0.jpg
    About Colligator 2.0.jpg
    50.1 KB · 浏览: 54
  • About Collocator 1.0.jpg
    About Collocator 1.0.jpg
    40.1 KB · 浏览: 37
回复: Collocator和Colligator软件beta版

演示视频
 

附件

  • BFSU Collocator 1.0 演示.part1.rar
    3.8 MB · 浏览: 1,218
  • BFSU Collocator 1.0 演示.part2.rar
    3.8 MB · 浏览: 925
  • BFSU Collocator 1.0 演示.part3.rar
    3.8 MB · 浏览: 998
  • BFSU Collocator 1.0 演示.part4.rar
    3.8 MB · 浏览: 1,068
  • BFSU Collocator 1.0 演示.part5.rar
    3.8 MB · 浏览: 957
  • BFSU Collocator 1.0 演示.part6.rar
    3 MB · 浏览: 897
回复: Collocator和Colligator软件beta版

讲的非常好!软件很实用!而且在发表文章的时候拿出实体的软件,才是最真实的。很多文章写了自己开发了某个程序,但结果是“神龙见首不见尾”。所以我支持楼主和许博士的方式。非常感谢~!

有个问题,如果文本是<w VVG>Reading</w> <w II>in</w> <w APPGE>My</w> <w NN1>School</w> <w NNT2>Days</w> <w RRQ>When</w> <w PPIS1>I</w> <w VBDZ>was</w> <w II>in</w> <w MD>7th</w> <w NN1>grade</w> <c PUN>,</c> <w PPIS1>I</w> <w VHD>had</w> <w AT1>a</w> <w NN1>lot</w> <w IO>of</w> <w NN1>trouble</w> <w NN1>reading</w> <c PUN>.</c>

这样的。我手动添加了<>这个符号在set separator里,但无法检索好像。还是我不会用。。。
 
回复: Collocator和Colligator软件beta版

讲的非常好!软件很实用!而且在发表文章的时候拿出实体的软件,才是最真实的。很多文章写了自己开发了某个程序,但结果是“神龙见首不见尾”。所以我支持楼主和许博士的方式。非常感谢~!

有个问题,如果文本是<w VVG>Reading</w> <w II>in</w> <w APPGE>My</w> <w NN1>School</w> <w NNT2>Days</w> <w RRQ>When</w> <w PPIS1>I</w> <w VBDZ>was</w> <w II>in</w> <w MD>7th</w> <w NN1>grade</w> <c PUN>,</c> <w PPIS1>I</w> <w VHD>had</w> <w AT1>a</w> <w NN1>lot</w> <w IO>of</w> <w NN1>trouble</w> <w NN1>reading</w> <c PUN>.</c>

这样的。我手动添加了<>这个符号在set separator里,但无法检索好像。还是我不会用。。。

很抱歉现在软件不支持<w VVG>Reading</w>这种格式的标注,只支持Word_POS格式的,您可以先把文本转化一下再使用。
 
回复: Collocator和Colligator软件beta版

许家金、熊文新,2009,基于学习者英语语料的类联接研究:概念、方法及例析,《外语电化教学》第3期。
 

附件

  • 许家金、熊文新《外语电化教学》200903类联接.pdf
    983.7 KB · 浏览: 714
回复: Collocator和Colligator软件beta版

本人有一重要概念要请教,还请楼主和各位朋友指点。对于语料库的代码格式问题,我一直迷惑。
用这类方式做的标注:<w VVG>Reading</w> <w II>in</w> <w APPGE>My</w> <w NN1>School</w> 如果用<s> </s>在转换成html的时候,会有“删除线”的效果。所以不得已把<s> </s>去掉。 那这样的话,直接student_NN1 格式不就完了,我始终对2种格式的优点和缺点不是太明白。。。。。。

因为用<> xml的格式标注貌似比较流行。同时还说方便转换为html。但我刚才提到了一个问题。
 
回复: Collocator和Colligator软件beta版

本人有一重要概念要请教,还请楼主和各位朋友指点。对于语料库的代码格式问题,我一直迷惑。
用这类方式做的标注:<w VVG>Reading</w> <w II>in</w> <w APPGE>My</w> <w NN1>School</w> 如果用<s> </s>在转换成html的时候,会有“删除线”的效果。所以不得已把<s> </s>去掉。 那这样的话,直接student_NN1 格式不就完了,我始终对2种格式的优点和缺点不是太明白。。。。。。

因为用<> xml的格式标注貌似比较流行。同时还说方便转换为html。但我刚才提到了一个问题。

语料库采用什么样的格式,可能是由检索软件决定的。
Word_POS或POS_WORD POS/WORD WORD/POS这类比较简单,方便使用。
目前很多人主张用XML格式或类似XML的格式,作为语料库的统一标注格式,因为XML是万能格式,便于转换,能为更多软件接受。我觉得采用什么格式,完全处于个人习惯和检索软件的要求。标注的准确率要比格式重要得多。目前一些软件96%或97%的准确率其实并不高,试想没100词就有4处错误,100万词4万处错误,而你要寻找的东西可能就淹没在这4万处错误之中。标注的准确性,还有待于大家进一步提高。
 
Last edited:
回复: Collocator和Colligator软件beta版

注意Collocator和Colligator是两个不同的软件,不是1.0和2.0不同版本的关系。
 
回复: Collocator和Colligator软件beta版

Thanks for sharing. If everyone follows suit here being truely unselfish like WilliamJia, then, corpus linguistics will work to our favour.
 
回复: Collocator和Colligator软件beta版

软件会忽略以<s>和</s>开始的行,所以请不要在<s>标签后直接放数据,最好另起一行,如:
<s>
Word_POS Word_POS Word_POS
</s>

而不要使用:
<s>Word_POS Word_POS Word_POS</s>
不然无法检索到数据
 
回复: Collocator和Colligator软件beta版

谢谢分享!分享才能实现更大的价值。不过谢谢JIA,XU和LIANG的辛苦劳动。
 
Back
顶部