快乐分享:华南师大带回的detagging tool

xusun575

高级会员
全国首届MTI教育与翻译产业研讨会结束了,准备收拾行囊准备走人.今日一早起来,无聊之中,打开电脑,试用了一下我们从华南师大"国际"会议带回的detagging tool 处理clec中六个文件中的一个:打开,选中全部....,运行. 但结果发现对这个文件没有作用.问: 是这个工具对文本的大小有限制吗?现将文件和tool传上.

ps:
北京一行,参加MTI会议,收获颇丰:北大英语系会老同学,计算语言所常宝宝与俞敬松老师处进行了学习交流。感慨良多,北大就是北大,那里有的是真刀真枪真功夫:p。不过咱“山寨”土玩艺儿“电风扇”也秀了一下,敬松及其弟子劲松也对我们的语料处理、检索和对齐提出了极为中肯的建议。还是宝宝好,戏谑称之为“独门绝活”,还挺中听滴呢:D。不过和翻译产业界奇人蒋小林(新当选的中国翻译协会副会长)一聊,俺打心底里为我们这些学富五车才高八斗的C友们叫屈啊:D

知识与电风扇见 http://www.corpus4u.org/showthread.php?t=4905) (thanks to Laohong F3)
 

附件

回复: 快乐分享:华南师大带回的detagging tool

可以的话,自己虚拟一个linux环境,然后进到CLEC/st目录中,只用一条命令即可detag任意大小的文本
sed -i 's/\[[^]]*\]//g' st2.txt # 去掉方括号类的tag
 

xusun575

高级会员
回复: 快乐分享:华南师大带回的detagging tool

可以的话,自己虚拟一个linux环境,然后进到CLEC/st目录中,只用一条命令即可detag任意大小的文本
sed -i 's/\[[^]]*\]//g' st2.txt # 去掉方括号类的tag
同意,但Linux对我太技术了.咱们用的是"宏"(用刚刚听到的术语叫VBA):D
 

xusun575

高级会员
回复: 快乐分享:华南师大带回的detagging tool

sed也出了windows版本,称为sed for Windows
http://gnuwin32.sourceforge.net/packages/sed.htm
其实linux下面有很多非常方便的“原生”工具,可以实现Windows下某些必须安装软件才能实现的功能,对语料库操作来说尤其方便
谢谢!曾听一老友(IT界绝对高人)说(大意),"掌握linux和搜索引擎技术"会使人有"脱胎换骨"的感觉.
 

maggieq58

语料人生
回复: 快乐分享:华南师大带回的detagging tool

这个detagging tool不就是论坛上早就有的吗??。。。。
 

xujiajin

管理员
Staff member
回复: 快乐分享:华南师大带回的detagging tool

是的。很早以前WilliamJia就上传了。华南师大这次会上是借用。
 

xusun575

高级会员
回复: 快乐分享:华南师大带回的detagging tool


轻松一点:
华南师大也够扣的呵: 好东西自己留着,怎么注册就是不开门,然后拿"借用"的东西送人?:p这也太不厚道了吧?
放松...深呼吸...:D,
 

joe

初级会员
回复: 快乐分享:华南师大带回的detagging tool

Chris Greaves 开发的 ConcGram 带了一个‘remove tags’的小工具。
 
顶部