如何生成文本"最常用标注表"即"list of the most frequently used tags"?

本文由 半抹阳光2017-09-25 发表於 "语料库标注" 讨论区

  1. 各位前辈,

    本人用兰卡斯特的semantic tagger USAS对文本进行了标注,平时我们很容易生成最常用词表frequency list,但是请问如何生成最常用的标注表,就是most frequently used tags?

    目前用的是Antconc,如果有其他软件可以运行生成这个list也可以留言哈!灰常感谢!!
     
  2. 李亮1975重庆

    李亮1975重庆 语料库快乐军政委

    方法1:用正则表达式提取出所有标签到另一份文本文件而用antconc生成这份文件的词表就是你要的标签数量排行榜了!
    方法2:用正则式剔除带标签的所有单词本体,保存当前文件,即可用antconc生成词表而其实形成了你要的那种词表!

    正则式就像狙击步枪的瞄准镜,是用来批量猎杀的,批量猎杀其实是指"批量染色凸显、批量删除、批量提取、批量统计、批量替换"。在灵活运用情况下,批量删除与批量提取是殊途同归的相同功能,上面的方法1与方法2就是"南辕北辙、殊途同归"!

    用正则式瞄准单词本身,一般是:[a-zA-Z0-9]+
    用正则式瞄准"下划线型"词类(或语义)标签,一般是:_[a-zA-Z0-9]+
    用正则式瞄准"斜线型"词类(或语义)标签,一般是:/[a-zA-Z0-9]+
    用正则式瞄准"反斜线型"词类(或语义)标签,一般是:\\[a-zA-Z0-9]+

    正则式工具很多,我最爱EmEditor,它有破解版,支持GB级超大文本(子)文件(夹)的批量处理!