怯怯地问个低级问题

#1
现想针对大学生四六级作文中的搭配情况进行研究,可是不解的是怎样对clec的st3和st4中的作文进行随机取样,它是一个整体啊(我用的是wst 3.0)
clec只有字数说明 没有篇数说明啊
还有 我只想从最简单的研究做起,只当是练习 不知100篇是否有价值?
 
#3
回复: 怯怯地问个低级问题

谢谢许博
如果是硕士论文,不知最少应该多少篇,应该怎样随机选取预料呢,重新建立文本文档么
 

hazhihan

初级会员
#4
回复: 怯怯地问个低级问题

韩宝成的《外语教学科研中的统计方法》中提到三类抽样方法:简单随机抽样、等距抽样和分层抽样。供楼主参考
 
#5
回复: 怯怯地问个低级问题

韩宝成的《外语教学科研中的统计方法》中提到三类抽样方法:简单随机抽样、等距抽样和分层抽样。供楼主参考
楼上误解了。我是说
[FONT=宋体]clec的这两个子库是把许多作文放到一个大文档里,(这与文老师的[/FONT]sweccl[FONT=宋体]不同,每篇作文是单独的文档,这样方便随机取样),随机取样怎么进行,需要手工剪切粘贴到新文档里么?[/FONT]
 

laohong

管理员
Staff member
#6
回复: 怯怯地问个低级问题

楼上误解了。我是说
[FONT=宋体]clec的这两个子库是把许多作文放到一个大文档里,(这与文老师的[/FONT]sweccl[FONT=宋体]不同,每篇作文是单独的文档,这样方便随机取样),随机取样怎么进行,需要手工剪切粘贴到新文档里么?[/FONT]
在EditPlus里使用Regular Expression查找和替换,把那个大文档以每篇作文为单独的文档进行分切,完成后随机取样不就行了。例如,ST2 就可以分成1483个,ST3 就可以分成1317个等....

也可以适用WordSmith里的Splitter来进行文本分切。具体怎么做,阅读说明。
 
#8
回复: 怯怯地问个低级问题

laohong, 我在分切文档时遇到麻烦:对clec光盘里的st3进行切分,end of text separator设置为<ST 3>, 文件成功切分,而且也是1317个,但是得到的所有小文档都只含有有<>,什么内容也没有,可是用同样的方法切分st4却没有问题。我比较了下,发现st3中每篇文章之间有空行,st4没有,所以我想应该是separator有问题,可是试了几个都不行,你又什么办法?

谢谢!
 

laohong

管理员
Staff member
#9
回复: 怯怯地问个低级问题

WordSmith Splitter的bug, 这里是解决办法:

1、用EditPlus打开ST3文本,敲菜单中Search, Replace, 然后在Find What里填入\n\n,在Replace With里填入\n,勾选Regular Expression,敲Replace All得到没有空行的新文件;

2、然后敲菜单中Search, Replace, 然后在Find What里填入<ST 3>,在Replace With里填入</text>\n<ST 3>,勾选Regular Expression,敲Replace All得到新文件;

3、删掉新文件的第一行,存下;

4、打开WordSmith Splitter, 在End of text separator里删掉!#,填入</text>;并把Bracket first line后的勾去掉,OK即可进行分割。
 

mayerniu

初级会员
#10
回复: 怯怯地问个低级问题

用wordsmith splitter切分后,只得到如下显示:st3.txt:2637lines. 拆分后的文本却看不到。请问老洪,这种情况如何解决?
 
Last edited by a moderator:
#13
回复: 怯怯地问个低级问题

谢谢laohong的热心回答!非常感激laohong花时间回答一些菜鸟的低级问题。要知道初学者尤其是自学的初学者会遇到各种问题,这种问题对高手来说可能不屑一顾,可是对他们来说却十分苦恼,找不到出路且无从下手,即使是看书或相关帖子也找不到答案,只好抱着惴惴不安的心情到论坛上求助,希望高手理解。
另外,在laohong指点之前,我自己也摸索了一个办法,解决了我的问题,办法虽然苯,但是解决了(嘿嘿,窃喜)。我是手工把st3.txt文件改了一下,在文本标头和作文之间加了回车。使作文另起一段,花了我近两个小时,不过也比守着论坛干等着强啊。
再次感谢!
 
#14
回复: 怯怯地问个低级问题

弱弱地问个问题:
我试着用Splitter对st4进行切分,把end of text separator设置为<ST 4>,然后点Go Now!,却跳出对话框说“No enough room on drive \:”,这是为什么啊?我的盘上还有近1G的空间呢啊~
 

laohong

管理员
Staff member
#15
回复: 怯怯地问个低级问题

弱弱地问个问题:
我试着用Splitter对st4进行切分,把end of text separator设置为<ST 4>,然后点Go Now!,却跳出对话框说“No enough room on drive \:”,这是为什么啊?我的盘上还有近1G的空间呢啊~
请仔细阅读楼上的内容。
 
#16
如何区分clec 语料库中4,6级(st3, st4) 作文中的考试作文和自由作文?

只能回帖还不能发新帖,所以就发在这里了。

请教大家:

我想区分一下Clec 语料库中4,6级考试作文和自由作文, 手头有书和光盘。据书上说这两个字库里有少量的自由作文,想把这部分自由作文清理出去, 但是看了下光盘上的数据, 不知道哪些是自由作文,只知道说有六个考试题目, 书上也没有提哪六个题目, 要不然还可以根据题目搜索。书上有提到考试作文有30万文字,而st3, st4的考试作文和自由作文加在一起是40万字左右。 那么该怎么区分哪些是自由作文,哪些是考试作文呢?

作文前面有一些标记 <WAY 1> <TYP 1> <SCH 2703> <DIC ?> 等等,但是不知道它们是什么意思, 书上也没有说。 哪位高手可以帮一下吗? 万分感谢!
 
#17
回复: 如何区分clec 语料库中4,6级(st3, st4) 作文中的考试作文和自由作文?

只能回帖还不能发新帖,所以就发在这里了。

请教大家:

我想区分一下Clec 语料库中4,6级考试作文和自由作文, 手头有书和光盘。据书上说这两个字库里有少量的自由作文,想把这部分自由作文清理出去, 但是看了下光盘上的数据, 不知道哪些是自由作文,只知道说有六个考试题目, 书上也没有提哪六个题目, 要不然还可以根据题目搜索。书上有提到考试作文有30万文字,而st3, st4的考试作文和自由作文加在一起是40万字左右。 那么该怎么区分哪些是自由作文,哪些是考试作文呢?

作文前面有一些标记 <WAY 1> <TYP 1> <SCH 2703> <DIC ?> 等等,但是不知道它们是什么意思, 书上也没有说。 哪位高手可以帮一下吗? 万分感谢!
CLEC那本书上有的,你好好看下。
 
#19
回复: 怯怯地问个低级问题

<Way 1> 系试卷作文
<Way 2>系课堂作业
<Way 3>系课外作业

自由作文应该说是<Way 2>和<Way 3>吧。
 
#20
回复: 怯怯地问个低级问题

请问一下 armstrong老师, 这个<Way 1>是试卷作文时哪里得来的消息?那本书上吗?如果是这样, 那太好了!

<Way 1> 系试卷作文
<Way 2>系课堂作业
<Way 3>系课外作业

自由作文应该说是<Way 2>和<Way 3>吧。
 
顶部