最近在做一个开源项目,其中需要用到对语料库进行统计生成统计词典,但是对于语料库的版权问题还有很多不明白的地方。可能也是也是关于著作的定义和衍生物的定义或判定的问题。
这个问题可能比较复杂,我不是很明白版权在这个过程中是怎么理解的。
一般来说生成词库的流程是这样:
1、人民日报、报刊文摘等文章收集
2、有人对文章进行处理,其中包括,分句子、人工分词、标注词性,这样生成的结果称为语料库
3、对语料库的所有词进行频率统计就生成了词库。
举例来说明这3步。
假设某个报刊文摘中有一句话:
我理解这句话的著作权应该杂志或者作者所有。
接下来这句话被A机构收录用以制作语料库。...