我想统计CLEC的词现,可如何去掉当中的标注?

niepengli

普通会员
本人想研究CLEC,在作词现和次类统计中,在使用软件时,那些标注也被统计进去了,有何办法解决该问题,谢谢!
 

xiaoz

永远的超级管理员
Staff member
If you use WordSmith, activate "Ignore tags <*>", and "Select part of a file":

Start tag: [
End tag: ]

Then you ignore both <*> and [*].
 

动态语法

管理员
Staff member
回复:我想统计CLEC的词现,可如何去掉当中的标注?

以下是引用 niepengli2005-10-28 10:10:03 的发言:
本人想研究CLEC,在作词现和次类统计中,在使用软件时,那些标注也被统计进去了,有何办法解决该问题,谢谢!
"如何去掉当中的标注"中的“去掉”在这里有歧义:可以是在检索时“忽略”不计,也可以是从
文本中将其删除。

如果是从文本中删除,用MS Word 或其他文本处理工具(如正则表达式)的“替换”功能删除。
 

frankliang

普通会员
你也可以用regular expression进行替换,把[[^<>]+]换成空格。不过CLEC的原版光盘中本来就有没标记过的raw texts
 

niepengli

普通会员
谢谢,可是在wORDSMITH-WORDLIST中,对非英语的项目进行处理后(比如,删除数字,和非英语单词)ZAP后,此时的TYPE可以随机变化,可是STATISTICS中的数据却无变化,这又如何能知道实际的词现和其他实际统计数据呢?
 

xiaoz

永远的超级管理员
Staff member
After the editing work -

In WST3, there is a button in the toolbar for re-computing collocates.

In WST4, select Compute - Collocates in the menu, or press F10
 

niepengli

普通会员
Thank you for your patience,but i'm afraid you probably mistood my question. What I mean in in the Wordlist-statistics menu,the token used for the wordlist or types cannot change with my editing of the Frequency,while what you mean is the concord part of the software.I want to calculate the total number of the tokens and types of part of the CLEC(excluding those tags and non-english words),so that I can get the real picture of that subcorpus. The non-english words in the Wordlist--frequency can be zapped, but accordingly i think the number should be changed in the statistics menu, but it never changes. So that data will not refelect the real picture.
 

xujiajin

管理员
Staff member
Why not create a copy of raw data of CLEC yourself?
In that case, you don't need to take the trouble recomputing.
 

chrisyang

普通会员
回复:我想统计CLEC的词现,可如何去掉当中的标注?

据我所知,CLEC的文本内容有用三种不同格式处理的版本。我们现在在书店见到的光盘版是.text文件的,它是带有标注的;第二种格式是以.NOE文件出现的,第三种是以.ttt文件出现的,后两种都不带标注。试一试看能否找到。
 

chrisyang

普通会员
回复:我想统计CLEC的词现,可如何去掉当中的标注?

还有,你可以用editplus 2 很快捷的去掉库中你不需要的标注符号。这是软件的下载地址:

http://www.editplus.com/download.html
 
顶部