Dancefire的最近内容

D
请问哪里有可以下载用以训练的语料库？

回复: 请问哪里有可以下载用以训练的语料库？是这样，我写一个中文分词的库，计划命名为OpenCLAS，以ICTCLAS为原型，完全重写，重新设计、重新实现，先实现C++的分支版本，并且以之为蓝本，clone出Java和C#的两个分支版本，以BSD许可协议发布。...
- Dancefire
- Post #3
- 2007-05-17
- 论坛: 汉语语料库
D
请问哪里有可以下载用以训练的语料库？

我看了那些free online corpus，可是似乎没有一个是可以下载的，全都是在线搜索。除了北大人民日报1998年1月份的语料库外，似乎所有的语料库都是在线查询的方式。我的目的是用语料库统计词频和二元转移矩阵还有一些NE的上下文统计，如果不能下载到本机仅仅是查询，那对于训练词典来说毫无意义的。:confused: 请问大家，哪里可以得到切分、标注好的汉语语料库？我在做一个开源项目，没有任何经费支持，将来也不打算盈利，可以算是公益的事情了，因此最好是免费的语料库，不然我承担不起。
- Dancefire
- 主题
- 2007-05-17
- 回覆: 4
- 论坛: 汉语语料库
D
请教语料库、词典、版权的问题

回复: 请教语料库、词典、版权的问题 still pending...
- Dancefire
- Post #12
- 2007-05-17
- 论坛: 语料库语言学入门
D
请教语料库、词典、版权的问题

回复: 请教语料库、词典、版权的问题谢谢xiaoz和oscar3，我的问题越来越清楚了。我现在对Question B已经比较清楚了。我是这么理解的（如果有错误还请指正），如果语料库以下列形式出现：那么语料库的作者对该语料库不拥有版权，版权归原作者所有。而如果语料库将标注和原文分开，标注以下列形式出现： <struct type="tok" from="157" to="158"> <feat name="class" value="punc"/> <feat name="base" value=")"/> <feat name="msd"...
- Dancefire
- Post #11
- 2007-05-12
- 论坛: 语料库语言学入门
D
请教语料库、词典、版权的问题

回复: 请教语料库、词典、版权的问题你提到了第一个问题，既必须征求原版权所有人的许可。那似乎现在相当多的大规模语料库都做不到这一点，他们都一一的征求了原版权人的许可了么？这里有什么默认的许可么？比如只要注明原作者就可以使用？或者不超过原文的多少百分比就可以？第二个问题你没有明确，标注后的文本句子的版权属于原版权人，那么标注本身呢？换句话说，制作语料库的机构对语料库有什么权利么？似乎这么说完后，制作语料库的机构对语料库没有任何权利了。...
- Dancefire
- Post #7
- 2007-05-11
- 论坛: 语料库语言学入门
D
请教语料库、词典、版权的问题

回复: 请教语料库、词典、版权的问题谢谢您提供的三个文献让我对A有了一定的了解。但是我对Question B和C还是很不清晰，到底谁拥有版权？哪部分的版权？真能确定其衍生物的关系么？
- Dancefire
- Post #6
- 2007-05-11
- 论坛: 语料库语言学入门
D
请教语料库、词典、版权的问题

最近在做一个开源项目，其中需要用到对语料库进行统计生成统计词典，但是对于语料库的版权问题还有很多不明白的地方。可能也是也是关于著作的定义和衍生物的定义或判定的问题。这个问题可能比较复杂，我不是很明白版权在这个过程中是怎么理解的。一般来说生成词库的流程是这样： 1、人民日报、报刊文摘等文章收集 2、有人对文章进行处理，其中包括，分句子、人工分词、标注词性，这样生成的结果称为语料库 3、对语料库的所有词进行频率统计就生成了词库。举例来说明这3步。假设某个报刊文摘中有一句话：我理解这句话的著作权应该杂志或者作者所有。接下来这句话被A机构收录用以制作语料库。...
- Dancefire
- 主题
- 2007-05-10
- 回覆: 12
- 论坛: 语料库语言学入门

Dancefire的最近内容

请问哪里有可以下载用以训练的语料库？

请问哪里有可以下载用以训练的语料库？

请教语料库、词典、版权的问题

请教语料库、词典、版权的问题

请教语料库、词典、版权的问题

请教语料库、词典、版权的问题

请教语料库、词典、版权的问题