如何生成文本"最常用标注表"即"list of the most frequently used tags"?

#1
各位前辈,

本人用兰卡斯特的semantic tagger USAS对文本进行了标注,平时我们很容易生成最常用词表frequency list,但是请问如何生成最常用的标注表,就是most frequently used tags?

目前用的是Antconc,如果有其他软件可以运行生成这个list也可以留言哈!灰常感谢!!
 

李亮1975重庆

语料库快乐军政委
#2
方法1:用正则表达式提取出所有标签到另一份文本文件而用antconc生成这份文件的词表就是你要的标签数量排行榜了!
方法2:用正则式剔除带标签的所有单词本体,保存当前文件,即可用antconc生成词表而其实形成了你要的那种词表!

正则式就像狙击步枪的瞄准镜,是用来批量猎杀的,批量猎杀其实是指"批量染色凸显、批量删除、批量提取、批量统计、批量替换"。在灵活运用情况下,批量删除与批量提取是殊途同归的相同功能,上面的方法1与方法2就是"南辕北辙、殊途同归"!

用正则式瞄准单词本身,一般是:[a-zA-Z0-9]+
用正则式瞄准"下划线型"词类(或语义)标签,一般是:_[a-zA-Z0-9]+
用正则式瞄准"斜线型"词类(或语义)标签,一般是:/[a-zA-Z0-9]+
用正则式瞄准"反斜线型"词类(或语义)标签,一般是:\\[a-zA-Z0-9]+

正则式工具很多,我最爱EmEditor,它有破解版,支持GB级超大文本(子)文件(夹)的批量处理!
 
顶部