word, or 纯文本

建语料库时,从纸质到电子文本,在word,还是写字板输入?(在确保原文拼写和标点不变的情况下,因为word的自动拼写功能可以减少输入错误),保存时,又用哪个呢?以前印象中,好像是纯文本,但不知为何,请教懂的人。
 
回复: word, or 纯文本

一般来说,语料以什么形式储存,主要取决于你的语料检索工具。如果你的检索工具是依赖于Word文档,那就可以用Word。
但是,通常来说,使用文本文件具有更好的兼容性,因为绝大部分(如果不是全部的话)检索工具都能够(甚至仅仅能够)检索文本格式的语料库。
 

oscar3

高级会员
回复: word, or 纯文本

建语料库时,从纸质到电子文本,在word,还是写字板输入?(在确保原文拼写和标点不变的情况下,因为word的自动拼写功能可以减少输入错误),保存时,又用哪个呢?以前印象中,好像是纯文本,但不知为何,请教懂的人。
建设语料库的过程中,有一个处理文本的过程。在在输入,清理杂质,标注等等步骤时,什么工具方便就用什么工具。比如,手工输入时,MS-word显示和拼写检查等都比较友好,使用word比较好,但是要做词性标注或者是句法标注时,可能就需要txt格式了,有时候可能还需要用到MS-Excel来处理。语料库最终的保存形式则要看语料库使用的大小,是长期保存还是一次性用途,是自己用还是打算以后共享给他人的因素再作决定。
 

Haiyang Ai

Administrator
回复: word, or 纯文本

I'd say, go with plain text format. Otherwise, you'll need to convert to plain text format down the road for a variety of purposes.
 
顶部