推荐使用网络语料自动下载工具BootCat

本文由 ArthurW2016-12-20 发表於 "编程与工具开发" 讨论区

  1. BootCat是Bootstrap Corpora and Terms的缩写,是WaCky (Web-As-Corpus Kool Yinitiative)兴趣小组开发的软件,用于从互联网自动采集语料。可按用户指定的搜索词(称为seeds)借助Bing.com搜索引擎从网络上搜索网页,然后下载到本地硬盘构成语料库。这个软件被SketchEngine用作采集网络语料的后台工具(称为WebBootCaT)。由于SketchEngine是收费的,而且对试用用户有不少限制,而BootCat则是自由软件,因此强烈推荐有兴趣者下载安装BootCat。

    说明:
    1. 需要先在电脑系统中安装JRE。
    2. BootCat需要调用Bing.com的API,因此需要一个key。没有这个key的用户需要先申请,见http://docs.sslmit.unibo.it/doku.php?id=bootcat:help:search_engine_key

    WaCky的主页:http://wacky.sslmit.unibo.it/doku.php?id=start
    BootCat的主页:http://bootcat.dipintra.it/