Xaira处理BNC_Xml_Edition,索引做好了,但程序一打开.xcorpus文件就崩溃(附使用Xaira的截图)

本文由 xiaokan0072016-04-01 发表於 "语料库检索" 讨论区

  1. 如题,按步骤用Xaria-tools给BNC_Xml做index。中间设定的步骤我在这里截图给大家看。

    1、运行index wizard,选择建立BNC的目录文件
    1.png

    2、选择BNC的XML文件,在Texts文件夹下
    2.png

    3、选择文件格式为XML,勾选TEI complaint
    3.png

    4、选择目录文件夹的格式为Model1
    4.png

    5、导入的Xml文件数共4049个,这里略去图片(总共只让上传十张图,有点坑啊)
    6、检查XML文件的格式
    6.png

    7、Xml格式检查没有问题,选择文本语言为英语
    7.png

    8、文本标记选择的是bncDoc,不知道这一步有没有选对……
    8.png

    9、单元标记???选的是s,观察了下原XML文件的结构,是选择这个吧……(不确定)
    9.png

    10、形符?选择的是w
    10.png

    11、最后选择的是bibliography(参考文献吗?)貌似原文件中没有这个,直接掠过,点击下一步了
    11.png

    12、最后出现的界面就是index了,点击index会出现一个dos窗口,就开始运行了,这个时间很漫长花了十几个小时。做完之后文件夹大小是15.5G.文件夹结构如下(不能上图了):
    etc(文件夹)
    index(文件夹)
    source(文件夹)
    texts(文件夹)
    bib.xml
    BNC.xcorpus
    corpus_parameters.xml
    corpushdr.xml

    其中,index文件夹里文件如下:
    dsc.txt
    xdbaccel
    xdbdict
    xdblemma0
    xdblemma1
    xdblemma2
    xdblemma3
    xdblocs
    xdblocs1
    xdblocs2
    xdblocs3
    xdblocs4
    xdblocs5
    xdbthread
    xdbtype
    xdbwl
    xgrammar.xml
    xid.xml

    最后,运行Xaira打开BNC.xcorpus,就是程序崩溃,停止工作了。

    太郁闷了,做了这么久都还运行不了。那么BNC_Xml_Edition,还能用其他检索软件使用吗?Wordsmith5.0 也使用过了,根本带不起来,一检索也会崩掉。

    把过程写出来就是让大家看看,设置的步骤哪儿出错了。最后,想问下,BNC在线的检索,该怎样检索动词+名词搭配呢?比如,我想检索与development搭配的动词,该用什么样的检索式?
     
  2. 我还没有做到你这个程度,我是在网上下载了BNC的sample,下载下来之后都是XML格式,如何将这些格式转化成原始的文本呢?我只需要将BNC的部分口语文本放到Antconc里面检索即可。我是个菜鸟,望指导。。。。 upload_2016-4-2_12-39-16.png
     
  3. 第10步,不勾选Use Unicode rules;
    第11步,先Build now一个bibliography;
    其他步骤没问题。
    只要不出现“内存不足”的警告,一直到结束,即便是有警告“错误代码7”,都能正常使用。

    此外,(1)文件来源的路径不要包含中文字符;
    (2)使用8G或以上内存,并关闭其他程序。