搜寻结果

  1. xujiajin

    求助语料抽样工具

    其实有关建模的知识,问大模型就很管用。
  2. xujiajin

    求助语料抽样工具

    根据您提供的信息,个人建议: 就低。即若出现次数最少朝代“来”的频次为100次,其他13个朝代则均随机抽取100条。 如每个朝代量均很多,则以某一两个朝代先期开展预研究,探索大约几百条例证可以得到较为稳定的词汇语义用法规律,则定在该基础频数,同时余下12-13个朝代随机抽取相近频次。 仅供参考。 其他需要考虑的因素: (1)检索结果是否都是合法例证。比如,是否只研究黏着语素用法,或是同时考虑双音词/复合词? (2)是否开展相应的统计检验或建模?相关统计方法有最低样本数/例证数的要求。 等。
  3. xujiajin

    求助语料抽样工具

    我前几个月做了个随机抽样工具,主要针对语料库研究中最常见的两种随机取样问题。https://corpus.bfsu.edu.cn/BFSU_Text_Randomizer2.zip 不知能否解决您的问题? 如果不能的话,不知您讲的针对年代进行分层抽样的具体含义。 举例说,是否:(1)您有5000个文本,分属不能年份,要在每10年一个区间随机抽取一定数量的文本,存为若干个子文件夹? 或者是:(2)您对检索所得结果需按年份区间随机抽取索引行? 您的需求描述越具体,我们越能帮到您。
  4. xujiajin

    跪求英文学术语料库

    DEAP语料库中所收均为学术期刊论文原文,全文分享有违版权。 DEAP语料库家族只能提供在线检索。 您可在“北外CQPweb多语种语料库平台”上找到DEAP (Database of English for Academic Purposes) family corpora http://114.251.154.212/cqp/ 账号:test 密码:test 有关自己学术论文库的步骤,可参考:冯欣、吴菁菁、齐晖、许家金,2017,MedAca医学学术英语语料库的创建,《语料库语言学》(2):107-113。
  5. xujiajin

    跪求学术论文语料库

    DEAP语料库中所收均为学术期刊论文原文,全文分享有违版权。 DEAP语料库家族只能提供在线检索。 您可在“北外CQPweb多语种语料库平台”上找到DEAP (Database of English for Academic Purposes) family corpora http://114.251.154.212/cqp/ 账号:test 密码:test
  6. xujiajin

    有没有计算STTR较好的测算软件

    https://corpus.bfsu.edu.cn/ChiLex1_2.zip 说明文档已随软件附上。 这个说明文档是请ChatGPT同学写的,完全达到我期待的技术细节和语言表达要求。 我请GPT基于软件的源代码写一个Readme,人家分分钟就完成了。
  7. xujiajin

    有没有计算STTR较好的测算软件

    请各位也关注一下雷蕾老师的AlphaReadabilityChinese工具 https://github.com/leileibama/AlphaReadabilityChinese/releases/tag/AlphaReadabilityChinese
  8. xujiajin

    有没有计算STTR较好的测算软件

    请试一下这一版,已加入TTR,并做了其他少量优化。 https://corpus.bfsu.edu.cn/ChiLex1_2.zip
  9. xujiajin

    有没有计算STTR较好的测算软件

    好的。谢谢Ray_Bai的反馈,TTR可以加上。我有意不显示TTR的,因为STTR正是为解决TTR缺陷而提出的,有STTR就没有再看TTR的必要了。算法说明会在定稿后版本的说明文档里加上。 Cf. Limitations of TTR: https://www.sketchengine.eu/glossary/type-token-ratio-ttr/
  10. xujiajin

    有没有计算STTR较好的测算软件

    https://corpus.bfsu.edu.cn/ChiLex1.zip 请大家帮忙测试,并提宝贵意见。 软件的说明文档等功能测试完善后一并附上。
  11. xujiajin

    有没有计算STTR较好的测算软件

    这个应该可以的。我稍后写一个小程序传上来,然后请大家测试,并征求大家的修改意见。
  12. xujiajin

    有没有计算STTR较好的测算软件

    “主要是词汇”这个需求过于笼统。
  13. xujiajin

    有没有计算STTR较好的测算软件

    不支持中文及其他语种,只能分析英文文本。
  14. xujiajin

    求助 COLSEC中国学习者英语口语语料库

    可到孔夫子旧书网(https://www.kongfz.com)搜索: (1)《中国学习者英语口语语料库建设与研究》 (2)《中国学生英语口笔语语料库》 这两本书都配有语料库光盘。最便宜的都是30块钱。 如果不愿花30块钱,可到学校图书馆借阅这两本书。
  15. xujiajin

    急求中国学习者英语口语语料库

    可到孔夫子旧书网(https://www.kongfz.com)搜索: (1)《中国学习者英语口语语料库建设与研究》 (2)《中国学生英语口笔语语料库》 这两本书都配有语料库光盘。最便宜的都是30块钱。 如果不愿花30块钱,可到学校图书馆借阅这两本书。
  16. xujiajin

    COLSEC"中国学习者英语口语语料库"分论坛开坛

    可到孔夫子旧书网(https://www.kongfz.com)搜索: (1)《中国学习者英语口语语料库建设与研究》 (2)《中国学生英语口笔语语料库》 这两本书都配有语料库光盘。最便宜的都是30块钱。 如果不愿花30块钱,可到学校图书馆搜索这两本书。
  17. xujiajin

    请问现在比较高效的小说双语对齐方式是什么?

    GPT之类的对齐效果也很不错,但需要注意,时不时GPT对齐的同时会修改文字内容。
  18. xujiajin

    请问现在比较高效的小说双语对齐方式是什么?

    ABBYY Aligner仍是较为推荐的对齐工具。 可将20万字小说拆成章回分别对齐,这样更便于校对及后续分析。 对齐工具的效果和难度,与文本长短关系不大。 文学翻译因其体裁特点,难度是与生俱来的,且文学翻译译者改译、省译等处理方法运用更为普遍。
  19. xujiajin

    deGLOBE德语平衡语料库发布 The deGLOBE German written corpus available

    deGLOBE是单语库。可在线检索:http://114.251.154.212/cqp/deglobe/ 账号:test 密码:test 因版权问题不能全文下载。 英汉平行语料库:燚炎语料库可以全文下载:https://corpus.bfsu.edu.cn/Yiyan_Corpus.zip
  20. xujiajin

    求柬埔寨汉语学习者作文语料

    柬埔寨汉语学习者的作文语料不可能很多。 目前只能从HSK、全球库(qqk.blcu.edu.cn)、广外库(https://app.sketchengine.eu/#dashboard?corpname=preloaded%2Fguangwai)里面找到柬埔寨一语背景的学习者,再自己收集一些。
Back
顶部