搜寻结果

  1. ineedgerf

    COLSEC"中国学习者英语口语语料库"分论坛开坛

    COLSEC的前期都是研究生和博士生做的工作,他们非常辛苦。在劳动强度比较大的情况下,有错误是可以理解的,包括我批评过的其它语料库。 [本贴已被 作者 于 2005年12月06日 13时56分10秒 编辑过]
  2. ineedgerf

    COLSEC"中国学习者英语口语语料库"分论坛开坛

    <Transcription id=0106 disno=00021122030106> <participant interlodutor=1 speaker=3> </participant> <speaker sp1=female sp2=female sp3=male> </speaker> <interlocutor interlocutor=female> </interlocutor> <interlocutor> Good morning, everybody. </interlocutor> <spall> Good morning. </spall>...
  3. ineedgerf

    COLSEC"中国学习者英语口语语料库"分论坛开坛

    有光盘的能不能传给我一个文本,用邮件。谢谢。 ineedgerf@gmail.com
  4. ineedgerf

    COLSEC"中国学习者英语口语语料库"分论坛开坛

    COLSEC是学习者语料库,本来没有打算进行POS标注。这次出版的就是原计划的最终版本了。 所以,就象BNC的冠词的标注错误有1%、<w VVZ>zips</w>的错误有5/14一样,COLSEC的错误肯定有的,有广阔的“改进的空间”。 [本贴已被 作者 于 2005年12月06日 13时53分09秒 编辑过]
  5. ineedgerf

    Taggers" PK: which one outperforms others?

    TOSCA/LOB: 1)它有tlbtag批处理文件。原始的(即从开发者服务器上下载后的)批处理文件要求用户文件名后缀为.raw。这个可以更改; 2)注意另一个批处理文件tlbset.bat中的路径,应和其它一致; 3)注意tlbsys.cfg文件,里面也有一个路径; 4)它的输出格式是列显示的,如需要上面楼主的格式,需要一系列的转换。CLAWS有专门的转换程序,我们可以使用普通的文本编辑器完成; 5)在处理大量文件的时候,需要编写另外的批处理文件; 6)好像在xp下不工作。 大家稍微耐心一点儿,就会知道这个东西的使用方法了。
  6. ineedgerf

    COLSEC"中国学习者英语口语语料库"分论坛开坛

    向转写者致敬! [本贴已被 作者 于 2005年12月06日 13时49分55秒 编辑过]
  7. ineedgerf

    Taggers" PK: which one outperforms others?

    我顺着本站提供的链接,下载了TAIParse Part-of-Speech (POS) Tagger。结果如下: And/CC Durbeyfield/UNKNOWN lay/UNKNOWN back/UNKNOWN comfortably/RB on/IN [ the/DT grass/NN ] ./. '/' 这个结果和 TOSCA/LOB 相比: <w CC>And</w> <w NP>Durbeyfield</w> <w VBD>lay</w> <w RP>back</w> <w RB>comfortably</w> <w IN>on</w> <w...
  8. ineedgerf

    [讨论]开拓语料库研究视野

    “目前我们还存在不少难题,如方法学问题、分析技术、工具应用等尚需严谨的学术训练” 从论坛的内容来看,“开拓”似乎很难。李老师说的几个问题(其实不止这些,见他的其他著作),足以说明“开拓”的艰难。多数语料库语言学的研究生和博士生不一定那么熟悉计算机和相关的语言(我们不一定要会编程,但要懂)或者操作,这些限制了“开拓”。一楼说“李文中博士对计算机软件颇为精通,对各种Concordancer 应用熟练”,所以他知道目前还存在不少问题。假如我们一味的跟在别人的后面,根本不想“创新”,就很难开拓。要开拓,就要扩大自己的知识面。...
  9. ineedgerf

    WordSmith 3其实可以处理中文

    其实大家上面谈论的是一个软件编码的问题。我的体会是:不要努力使用不支持汉字编码的软件处理汉字。有些软件很好,有些就不怎么好。
  10. ineedgerf

    [求助]Where can I find corpus linguistics tutorials?

    Agree. Get a clear picture about what you will do first.
  11. ineedgerf

    [求助]boolean combinations

    应该是计算语言学上的术语。不过在语料库语言学中,也经常碰到类似的查询,例如,假如你想知道如下的搭配: nice boy/nice girl/good boy/good girl 就需要 boolean combinations 之类的表达方法。Regex 的表达式就是: (nice|good) (boy|girl) (上述表达式没有包括复数)
  12. ineedgerf

    [Weird crap] What would you say about such a toy?

    It's not bad if we come and post and share all those wonderful ideas!
  13. ineedgerf

    http://corpus.sjtu.edu.cn/

    我在 15 楼提供的链接暂时关闭。待进一步整理后再放开。对不起! [本贴已被 作者 于 2005年11月14日 17时15分25秒 编辑过]
  14. ineedgerf

    http://corpus.sjtu.edu.cn/

    QTAG 3.0 README The program is contained in the executable jar file qtag.jar, the English resource file is BLT.dat, and it is described in BLT.txt. Use it as follows: - input.txt is a plain text file (can contain SGML mark-up) which is tokenised (ie words and punctuation separated by...
  15. ineedgerf

    http://corpus.sjtu.edu.cn/

    这里原来提供的链接暂时关闭。很抱歉。 有什么问题请直接和我联系 (ineedgerf@gmail.com)。
  16. ineedgerf

    [砖头] COLEN 及其搜索工具下载(更新)

    谢谢 21 楼! 我试试你的方法。 “前辈”过奖了。
  17. ineedgerf

    [砖头] COLEN 及其搜索工具下载(更新)

    感谢 9/10 楼 dzhigner 对我的评论! 所有我语料库语言学方面的成绩都归功于李文中博士! 虽然没有坐在他的教室做他的学生,但是两个人的交谈、讨论、争论使我学到了很多的东西。 15 年的计算机使用经验 + 28 年的英语教学学习经验 = 现在的我和一个讲师title。 因为这些吧,所以屡败…… 所以,在这里发布自己的东西虽然没有得到稿费,但是,自己的东西拿出来和大家分享也算是对我国语料库语言学研究的一种贡献吧(大言不惭)! xujiajin 发现我的一篇(未发表)论文,贴在这里:...
  18. ineedgerf

    [讨论] BNC 及其使用

    作为一个商业软件,BNC 的安装确实复杂了些,因为大家都复制。所以,我从来就没有使用它的应用程序,而使用自己的方法。 本人对 BNC 做了一些修改,使其真正成为 xml 格式的语料库。修改后的格式为: <!--s--><w NN1>Beer</w> <w VVZ>seems</w> <w DT0>such</w> <w AT0>a</w> <w AJ0>simple</w> <w NN1-VVB>drink</w> <w CJT>that</w> <w PNP>we</w> <w VVB>tend</w> <w TO0>to</w> <w VVI>take</w> <w...
  19. ineedgerf

    [求助]colsec的赋码原则?

    这些码只有一个格式,没有“码集”,因为错误类型很多,在处理原来的标注格式时,我也一并将原来的标注格式转换为了和其它码句法相同的XML格式。
Back
顶部