如何生成文本"最常用标注表"即"list of the most frequently used tags"?

半抹阳光 · 2017-09-25

各位前辈，

本人用兰卡斯特的semantic tagger USAS对文本进行了标注，平时我们很容易生成最常用词表frequency list，但是请问如何生成最常用的标注表，就是most frequently used tags?

目前用的是Antconc，如果有其他软件可以运行生成这个list也可以留言哈！灰常感谢！！

李亮1975重庆 · 2017-10-03

方法1：用正则表达式提取出所有标签到另一份文本文件而用antconc生成这份文件的词表就是你要的标签数量排行榜了！
方法2：用正则式剔除带标签的所有单词本体，保存当前文件，即可用antconc生成词表而其实形成了你要的那种词表！

正则式就像狙击步枪的瞄准镜，是用来批量猎杀的，批量猎杀其实是指"批量染色凸显、批量删除、批量提取、批量统计、批量替换"。在灵活运用情况下，批量删除与批量提取是殊途同归的相同功能，上面的方法1与方法2就是"南辕北辙、殊途同归"！

用正则式瞄准单词本身，一般是：[a-zA-Z0-9]+
用正则式瞄准"下划线型"词类(或语义)标签，一般是：_[a-zA-Z0-9]+
用正则式瞄准"斜线型"词类(或语义)标签，一般是：/[a-zA-Z0-9]+
用正则式瞄准"反斜线型"词类(或语义)标签，一般是：\\[a-zA-Z0-9]+

正则式工具很多，我最爱EmEditor，它有破解版，支持GB级超大文本(子)文件(夹)的批量处理！

如何生成文本"最常用标注表"即"list of the most frequently used tags"?

半抹阳光

李亮1975重庆

语料库快乐军政委