求助科技英语语料文本清理

本文由 sdzdm19902015-03-12 发表於 "专门用途语料库" 讨论区

  1. 各位前辈们好,我在自建一个小型的科技语篇语料库,在文本清理的时候遇到诸多问题,希望得到大家的帮助。问题如下:
    文本中出现太多化学符号( 如HHPC2),转换格式之后数字跟字母都分开了,像水就变成了H2O,自动赋码的话能识别吗? 还是想办法把化学符号清理掉?
    化学符号太多会不会影响对英语语言的研究?
    另,文本中还出现很多单位、等式等又该如何清理呢?
    比例的表达如w/c,还有20–400 °C 等等,都该如何处理呢?
    多谢指点!
     
  2. 同问,顶一下!求经验分享~~
     
  3. 如果你非要保留各种化学符号公式,那就不建议你采用txt格式作为语料库文件的格式了。不过你换成别的支持各种符号的格式之后肯定就不能采用常见的语料库软件去检索了。有个折中的办法,你可以采用OpenOffice格式,OpenOffice支持正则表达式进行查找,不过在功能上肯定没有语料库软件的那些功能,因为OpenOffice基于Java编写,实在不行可以找个人给你写个插件装上,这样就可以要什么功能就有什么功能。
     
  4. 已经处理好了?
     
  5. 找到好的办法了吗?