本人刚开始学习语料库,在建立自己的平行语料库的过程中遇到了几个问题,烦请前辈们赐教,谢谢!
1. 英语文本中作者使用了少量的拉丁语、法语等词汇,这部分应该怎么处理呢?如果保留在文本里面,一是担心在claws赋码的过程中可能出现错误,二是在进行数据统计的时候不是也不够准确么?
2. 王立非老师的《计算机辅助第二语言研究方法与应用》第107页说claws标注后,符号<s>和</s>标识句子的开头和结尾,可是我用claws标注了以后怎么没有这两项呢,看了论坛里其他朋友传上来的标注材料好像也没有啊,这是怎么回事呢?
3. 把claws标注后的材料导入paraconc,隐藏了special...