文本"清理"技巧

armstrong

高级会员
回复: 文本"清理"技巧

可以利用Word的表格中的文本转换为表格的功能,分为三列,然后想保留啥就保留啥。
 

laohong

管理员
Staff member
回复: 文本"清理"技巧

文本文件被Treetagger处理之后,就变成了“word, tag, lemma”的形式,例如:“The Shadow of National Socialism and fascsim over Europe and its legal"被treetagger处理之后,就会变成下面的形式:

The DT the
Shadow NP Shadow
of IN of
National NP National
Socialism NN socialism
and CC and
Fascism NN fascism
over IN over
Europe NP Europe
and CC and
its PP$ its
Legal NP Legal

我之前一直用的是Perl来把去掉期中的word或者lemma或者tag的,今天看到这个帖子,我在想我是否可以用word来处理呢?请高人指点! 同时,还有其他的方法来处理这样的文本么??
方法和工具有很多,Armstrong已经给你了一种,我这里告诉你怎么用Editplus一分钟内搞定:

1、用EditPlus打开你的文本文件,敲菜单里的Search,选Replace;
2、在弹出来的窗口里把Regular Expression打勾选择;
3、如果是要去除Word(即你的例子里的第一列),在Find what里填入^[^ ]+[ ],然后在Replace with里啥都不填,敲Replace all搞定;
4、如果是要去除POS tags(即你的例子里的第二列),在Find what里填入[ ][^ ]+[ ],然后在Replace with里啥都不填,敲Replace all搞定;
5、如果是要去除Lemmas(即你的例子里的第三列),在Find what里填入[ ][^ ]+\n,然后在Replace with里填入\n,敲Replace all搞定。

注意中括号里的空格。Good luck!
 
顶部