百本语料库语言学书籍语料库供测试

laohong

管理员
Staff member
#1
百本语料库语言学书籍语料库
A Corpus of Corpus Linguistics Books

庆祝五一,这里把本来自己使用的这个语料库开放给大家测试。几点说明:

1、速度可能很慢,没有任何优化,点击搜索后,先深呼吸,耐心等待一会儿;

2、文本也没有任何清理,是直接从PDF电子书转化成Txt后索引建库的,会看到一些怪字符;建议使用context看上下文;

3、和别的语料库用途不一样,本意只是通过字句检索,方便写文章时迅速找到文献。比如说,哪些书本中提到semantic proposy,是如何用的等等。检索出来就可以再去细读了。

这里是书目列表

请不要检索常见词,也不要大规模检索。小心封IP。

最后,祝大家节日愉快。
 
Last edited:

xujiajin

管理员
Staff member
#2
回复: 百本语料库语言学书籍语料库供测试

谢谢。这个好。A Corpus of Corpus Linguistics
 

Haiyang Ai

Administrator
Staff member
#8
回复: 百本语料库语言学书籍语料库供测试

[
1、速度可能很慢,没有任何优化,点击搜索后,先深呼吸,耐心等待一会儿;
谢谢 Laohong 又分享很好的内容,相信对于语料库语言学方面的论文写作很有帮助。另外,是否可以在关键字段或表上建立索引,据 Mark Davies 说,速度会大幅提升。我这里没有这么大的数据,不好测试。还有,是否可以考虑以后把核心期刊的论文也收录进去,论文对于写作的帮助也许更直接。
 

laohong

管理员
Staff member
#9
回复: 百本语料库语言学书籍语料库供测试

谢谢 Laohong 又分享很好的内容,相信对于语料库语言学方面的论文写作很有帮助。另外,是否可以在关键字段或表上建立索引,据 Mark Davies 说,速度会大幅提升。我这里没有这么大的数据,不好测试。还有,是否可以考虑以后把核心期刊的论文也收录进去,论文对于写作的帮助也许更直接。
谢谢Haiyang。Mark的方法已经在CCTFC里实现了,目前这个CLBooks库蛮大的,没有那么多时间去清理和优化索引。核心期刊加进去那是最好不过了,但是那是一定得需要大家的合作了。
 
#10
回复: 百本语料库语言学书籍语料库供测试

谢谢Haiyang。Mark的方法已经在CCTFC里实现了,目前这个CLBooks库蛮大的,没有那么多时间去清理和优化索引。核心期刊加进去那是最好不过了,但是那是一定得需要大家的合作了。
很好的提议,干吗不牵个头实现呢?
 
顶部