PDA

查看完整版本 : [砖头] COLEN 及其搜索工具下载(更新)


ineedgerf
2005-11-07, 02:11 PM
COLEN 语料库是我在2003年前后建立的一个“教材文本”库。当时主要用于网站浏览,后来就把它标注,自己在课堂上使用。

COLEN 收集了我国大学英语教材中的阅读文章,共930篇。

COLEN 的结构为 xml 结构,头部信息大都没有提供,但正文部分使用 TOSCA/LOB 标注,它的准确率大概有 95% 左右。

COLEN 从标注的角度来讲应该是一个标准的 POS-TAGGED CORPUS,它的词性码结构如下:

<!--s--><w ATI>The</w> <w NN>idea</w> <w IN>of</w> <w VBG>becoming</w> <w AT>a</w> <w NN>writer</w> <w HVD>had</w> <w VBN>come</w> <w IN>to</w> <w PP1O>me</w> <w IN>off</w> <w CC>and</w> <w RP>on</w> <w IN>since</w> <w PPG>my</w> <w NN>childhood</w> <w IN>in</w> <w NP>Belleville</w><c SCOM>,</c> <w CC>but</w> <w PP3>it</w> <w BEDZX>wasn't</w> <w IN>until</w> <w PPG>my</w> <w OD>third</w> <w NN>year</w> <w IN>in</w> <w JJ>high</w> <w NN>school</w> <w CS>that</w> <w ATI>the</w> <w NN>possibility</w> <w VBD>took</w> <w NN>hold</w><c SPER>.</c><!--/s-->

为了查询的方便,该库以“行/句”为单位,即每行一句,借鉴了 BNC 的格式。

搜索工具和 http://english.htu.edu.cn/lingualsoft/index.htm 页面介绍的 CorpusEngine 还不大一样,后者正在测试中。

该工具仅对 html 文档进行查询,即仅支持 html 文档,包括其后缀名,查询支持多目录,结果显示在浏览器中,结果句后有链接,点击可以链接到结果句出现的篇章。该搜索工具支持 Regex,可以完成许多查询任务。上课使用尤其方便。

该工具不需要安装,使用条件是用户机必须有 .net framework:

http://corpus.htu.cn/dotnetfx.exe

语言包:
http://corpus.htu.cn/langpack.exe

压缩包中有 tagged COLEN 语料库。

下载 COLEN 及其搜索工具地址:http://corpus.htu.cn/COLEN_and_search_tool.rar
下载 COLEN 地址:http://english.htu.edu.cn/lingualsoft/index.htm。
有需要plain texts 请直接和ineedgerf@gmail.com联系。
相关文章:http://forum.corpus4u.org/upload/forum/2005110714265779.pdf
屡投屡败的相关文章:http://forum.corpus4u.org/upload/forum/2005110714544031.pdf


[本贴已被 作者 于 2005年11月12日 09时53分22秒 编辑过]

xujiajin
2005-11-07, 02:18 PM
谢谢分享。是河师大的吧?
有raw text的吗?

ineedgerf
2005-11-07, 02:23 PM
有raw text。

laohong
2005-11-07, 09:54 PM
能贴上Raw Text 吗?

laohong
2005-11-07, 10:47 PM
不了解李博士批评的具体内容。不过,由课文内容编建的语料库也不乏见,即使非Balance Corpus,如Biber的 TOEFL 2000 corpus里课本内容比例也不小(见下图Composition of the T2K-SWAL Corpus)。

http://forum.corpus4u.org/upload/forum/2005110722463931.jpg


至于课文内容是否"加工的"的自然语料却是个有争议的话题,比如说经过编辑修改后的媒体上的内容都是自然语料吗?这种经过少数人修改了的语料能够代表记者、创作者、或者普通言语使用者的真实语言运用情况吗?

通常的建库都有特定的研究目的的,不能是盲目的,也不能是万金油,什么问题都可以解决。用课文内容建的语料库来做课本编撰、课程开发等方面的研究是适当的,但是用修改过的篇章来研究原作者的文体风格当然就难免会挨砖头。

[本贴已被 作者 于 2005年11月08日 10时34分53秒 编辑过]

xiaoz
2005-11-07, 11:46 PM
In my view, the language used in textbooks/coursebooks is a type of natural language and a distinctive genre that merits inclusion in a corpus. There are some such corpora (e.g. the HKUST Computer Science Corpus is a one-million-word corpus of written English sampled from undergraduate textbooks in computer science) and many people are studying this genre (e.g. Hyland, Biber).

laohong
2005-11-08, 10:20 AM
Agree. How natural is natural enough? It's very controversial. As far as the pedagogic corpus is concerned, Biber's T2K-SWAL Corpus is a good example. Here is the breakdown of its components in discplines:

http://forum.corpus4u.org/upload/forum/2005110810191264.jpg


[本贴已被 作者 于 2005年11月08日 10时21分39秒 编辑过]

007
2005-11-09, 05:33 PM
搜索工具还好用,解开使用没有问题,而且能解决上课找例句的烦心事儿……

虽然简单,但别具一格。有创意……

dzhigner
2005-11-11, 12:51 PM
930篇...TAGGED...晚生实在佩服...居然分文不取地拿出来了...
楼主的东西是精华, 非常,非常,非常有价值 ... 应予以重视...
楼主贴子前[砖头]二字中的意味 ...

楼主是个实力雄厚而且十分务实的人 ... 从他那"屡投屡败"的论文就能看出来 ... 技术 ... 所谓"要克服技术恐惧症" ... 但若是我这样的小东西 ... 本来论文就发不动, 是绝对不敢说技术的, 我只敢多说理论, 少谈技术, 多少整点数据美美容...
感谢楼主!祝福楼主!

dzhigner
2005-11-11, 01:50 PM
在DDL与语料库与课堂教学方面,楼主提供的是一笔非常有价值的资源。晚生曾在课堂上即时试用过Brown等语料库,效果Extremely不理想,后来考虑到是语料和检索工具方面的问题:若对语料不加控制,不考虑学习者的理解能力,“输入”的效果难以保证。在检索工具提供的上下文方面,如果不以句或句群的模式呈现出KWIC,不可预知是否前后文能提供足够的信息来实施进一步的教学活动。所以,从这两方面来看,选用与学习者理解能力相符的课本中的课文,并采用行/句为单位 (因为使用一些Concordancer提供的切句功能也难以保证效果),并以此模式显示KWIC是课堂教学语料库应用或最佳的解决方法,楼主的语料库甚至已经过符码深加工,岂不是能提供更强大的开发潜能。此外,若果能接合一部词典,又能成为DDL应用中的强大工具。

也许在以语言学研究为轴心的语料库研究阵营,楼主的语料库多少会遭遇一些质疑。但在教学与DDL的角度,这笔资源与工具是非常难得与珍贵的...不才一直在收集资料,打算制作类似的语料库与检索工具,但忙于活命,没有充足的时间。

[本贴已被 作者 于 2005年11月11日 13时53分38秒 编辑过]

zhangbc
2005-11-11, 04:35 PM
请问:什么是“.net framework”?(下载了里面的搜索工具,不能用。)

[本贴已被 作者 于 2005年11月11日 17时25分02秒 编辑过]

tiger
2005-11-11, 11:07 PM
为什么打开检索工具itp时显示“初始化失败”?

清风出袖
2005-11-11, 11:29 PM
microsoft net framework 1.0, a couple of months ago a software named as nooj requires this as well. go to google to get one! it is free!

dzhigner
2005-11-12, 12:22 AM
这里可以找到 .net framework:
http://www.microsoft.com/downloads/search.aspx?displaylang=zh-cn&categoryid=10

ineedgerf
2005-11-12, 10:27 AM
感谢 9/10 楼 dzhigner 对我的评论!

所有我语料库语言学方面的成绩都归功于李文中博士!

虽然没有坐在他的教室做他的学生,但是两个人的交谈、讨论、争论使我学到了很多的东西。

15 年的计算机使用经验 + 28 年的英语教学学习经验 = 现在的我和一个讲师title。

因为这些吧,所以屡败……

所以,在这里发布自己的东西虽然没有得到稿费,但是,自己的东西拿出来和大家分享也算是对我国语料库语言学研究的一种贡献吧(大言不惭)!

xujiajin 发现我的一篇(未发表)论文,贴在这里:

http://www.corpus4u.com/forum_view.asp?view_id=1185&forum_id=7

感兴趣的可以浏览一下!

.net framework 和一个语言包已经发布到这里了。

[本贴已被 作者 于 2005年11月12日 10时30分09秒 编辑过]

xiaoz
2005-11-12, 10:39 AM
现在写文章很少有稿费哦,最多是20-30份抽印本加一本当期刊物。

但我知道有一家国际刊物给稿酬,1000美金一篇。是韩国出版的Journal of Universal Language。

zhangbc
2005-11-12, 10:39 AM
To 清风出袖,dzhigner & ineedgerf : I've got .net frame work. Thanks a lot!

[本贴已被 作者 于 2005年11月12日 10时45分36秒 编辑过]

zhangbc
2005-11-12, 10:49 AM
这么高的稿酬,对文章质量的要求自然就非常高甚至是苛刻了吧。

laohong
2005-11-12, 11:01 AM
以下是引用 ineedgerf 在 2005-11-12 10:27:34 的发言:
……在这里发布自己的东西虽然没有得到稿费,但是,自己的东西拿出来和大家分享也算是对我国语料库语言学研究的一种贡献吧(大言不惭)!

相信能在这里“顽强”地贴帖子的人,都有着一颗红亮的心!

xiaoz
2005-11-12, 11:07 AM
毛主席喜欢这种话。感觉又回到那个年代了。
相信能在这里“顽强”地贴帖子的人,都有着一颗红亮的心!

xujiajin
2005-11-12, 04:52 PM
顶!
我们不用baoxian,对吧?

dzhigner
2005-11-12, 06:45 PM
原来是薛前辈 ... 您不妨写本书 ... 把有关语料库的计算机技术汇集一下 ... 这是很有意义的事情 ... 因为从所谓“技术恐惧症”的角度讲,技术的确是一个重要的层面 ... 据我的感觉(只是一种感觉)研究语言或者教授语言的人,在计算机应用方面从整体上来看,确实存在着某些难以逾越的障碍,其中包括“不为”与“难为”两方面 ...

关于技术,我抖胆提点关于您制作的Colen检索工具提点建议,是一种在WebBrowser中即时显示HTML格式文本的方法,这样无须生成一张网页再行显示:我用VB.net代码来粗略表示一下:(不过您对此也许早已了如指掌了),我的计算机染毒,所以不便上传代码...

Imports mshtml
'引用Microsoft.mshtml
Public Class Form1
Inherits System.Windows.Forms.Form
Dim WEBDOC As HTMLDocument
'定义一个HTMLDocument对象
---------------------------------------------------------------------
---------------------------------------------------------------------
Private Sub Form1_Load(ByVal sender As Object, ByVal e As System.EventArgs) Handles MyBase.Load
AxWebBrowser1.Navigate("ABOUT:BLANK")
'触发浏览器
End Sub
---------------------------------------------------------------------
Private Sub AxWebBrowser1_DocumentComplete(ByVal sender As Object, ByVal e As AxSHDocVw.DWebBrowserEvents2_DocumentCompleteEvent) Handles AxWebBrowser1.DocumentComplete
WEBDOC = AxWebBrowser1.Document
'在浏览器DocumentComplete事件被触发后把浏览器的Document对象赋予WEBDOC,之后就可以对WEBDOC实施操作了。
End Sub
---------------------------------------------------------------------
Private Sub MenuItem1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles MenuItem1.Click
If Not WEBDOC Is Nothing Then
WEBDOC.body.insertAdjacentHTML("beforeend", TextBox1.Text)
'应用 HTMLDocument.body.insertAdjacentHTML方法在浏览器中插入HTML字符串,
'比如 "<p>context <I><u>keyword</u></I> context</p>"
End If
End Sub
---------------------------------------------------------------------
Private Sub MenuItem2_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles MenuItem2.Click
AxWebBrowser1.Navigate("ABOUT:BLANK")
'刷新浏览器
End Sub
End Class

ineedgerf
2005-11-12, 10:47 PM
谢谢 21 楼!

我试试你的方法。

“前辈”过奖了。

刘语料
2005-11-13, 10:11 AM
向务实且富有开拓精神的ineedgerf 老师和dzhigner老师学习!

zhangbc
2005-11-13, 07:17 PM
感谢ineedgerf!致敬!