PDA

查看完整版本 : 怯怯地问个低级问题


lansingzhu
2007-06-05, 10:57 PM
现想针对大学生四六级作文中的搭配情况进行研究,可是不解的是怎样对clec的st3和st4中的作文进行随机取样,它是一个整体啊(我用的是wst 3.0)
clec只有字数说明 没有篇数说明啊
还有 我只想从最简单的研究做起,只当是练习 不知100篇是否有价值?

xujiajin
2007-06-06, 08:06 AM
当练习的话,100篇完全可以了。

lansingzhu
2007-06-06, 09:41 AM
谢谢许博
如果是硕士论文,不知最少应该多少篇,应该怎样随机选取预料呢,重新建立文本文档么

hazhihan
2007-06-06, 05:13 PM
韩宝成的《外语教学科研中的统计方法》中提到三类抽样方法:简单随机抽样、等距抽样和分层抽样。供楼主参考

lansingzhu
2007-06-12, 10:42 AM
韩宝成的《外语教学科研中的统计方法》中提到三类抽样方法:简单随机抽样、等距抽样和分层抽样。供楼主参考

楼上误解了。我是说
clec的这两个子库是把许多作文放到一个大文档里,(这与文老师的sweccl不同,每篇作文是单独的文档,这样方便随机取样),随机取样怎么进行,需要手工剪切粘贴到新文档里么?

laohong
2007-06-12, 10:55 AM
楼上误解了。我是说
clec的这两个子库是把许多作文放到一个大文档里,(这与文老师的sweccl不同,每篇作文是单独的文档,这样方便随机取样),随机取样怎么进行,需要手工剪切粘贴到新文档里么?


在EditPlus里使用Regular Expression查找和替换,把那个大文档以每篇作文为单独的文档进行分切,完成后随机取样不就行了。例如,ST2 就可以分成1483个,ST3 就可以分成1317个等....

也可以适用WordSmith里的Splitter来进行文本分切。具体怎么做,阅读说明。

lansingzhu
2007-06-12, 06:37 PM
thanks so~ much, laohong! it's of great help to me.

lansingzhu
2007-06-17, 05:05 PM
laohong, 我在分切文档时遇到麻烦:对clec光盘里的st3进行切分,end of text separator设置为<ST 3>, 文件成功切分,而且也是1317个,但是得到的所有小文档都只含有有<>,什么内容也没有,可是用同样的方法切分st4却没有问题。我比较了下,发现st3中每篇文章之间有空行,st4没有,所以我想应该是separator有问题,可是试了几个都不行,你又什么办法?

谢谢!

laohong
2007-06-18, 02:43 PM
WordSmith Splitter的bug, 这里是解决办法:

1、用EditPlus打开ST3文本,敲菜单中Search, Replace, 然后在Find What里填入\n\n,在Replace With里填入\n,勾选Regular Expression,敲Replace All得到没有空行的新文件;

2、然后敲菜单中Search, Replace, 然后在Find What里填入<ST 3>,在Replace With里填入</text>\n<ST 3>,勾选Regular Expression,敲Replace All得到新文件;

3、删掉新文件的第一行,存下;

4、打开WordSmith Splitter, 在End of text separator里删掉!#,填入</text>;并把Bracket first line后的勾去掉,OK即可进行分割。

mayerniu
2007-06-18, 07:41 PM
用wordsmith splitter切分后,只得到如下显示:st3.txt:2637lines. 拆分后的文本却看不到。请问老洪,这种情况如何解决?

mayerniu
2007-06-18, 08:08 PM
Splitter has been done in Editplus, thank you, loahong!

laohong
2007-06-18, 10:07 PM
用wordsmith splitter切分后,只得到如下显示:st3.txt:2637lines. 拆分后的文本却看不到。请问老洪,这种情况如何解决?

你需要指定output directory。

lansingzhu
2007-06-20, 11:38 AM
谢谢laohong的热心回答!非常感激laohong花时间回答一些菜鸟的低级问题。要知道初学者尤其是自学的初学者会遇到各种问题,这种问题对高手来说可能不屑一顾,可是对他们来说却十分苦恼,找不到出路且无从下手,即使是看书或相关帖子也找不到答案,只好抱着惴惴不安的心情到论坛上求助,希望高手理解。
另外,在laohong指点之前,我自己也摸索了一个办法,解决了我的问题,办法虽然苯,但是解决了(嘿嘿,窃喜)。我是手工把st3.txt文件改了一下,在文本标头和作文之间加了回车。使作文另起一段,花了我近两个小时,不过也比守着论坛干等着强啊。
再次感谢!