求助,文本清洁遇到的问题。

我在清洁文本中遇到了一些问题:
首先,将PDF等格式转化为WORD的时候,去除图表和图像之后就会有在WORD中文本行列无法调整的现象,清洁就遇到问题了。请教各位老师在做这个的时候都是怎么处理的呢?
第二,有的词语,尤其是非英语,例如化学方面的,计算机无法辨识,那么在文本中显示不出或者以乱码出现怎么办呢?

我才接触语料库不久,希望向各位老师学习。谢谢各位老师指教。:)
 
回复: 求助,文本清洁遇到的问题。

图表之类的可以删除。它们不是你要研究的对象。
 
1) phd 转换之后的文本,你可以重新复制所有文件,然后打开新文件粘贴,只保留文字,应该是可以去除格式的。或者你尝试在转换之后的文件去除所有格式。汉语版的word好像有这个功能。

2)如果公式不是你的研究对象,你可以查找替换,替换成一个代码。这样就可以了。
 
回复: 求助,文本清洁遇到的问题。

PDF文件不建议直接转word,因为直接转word处理起来很麻烦,PDF转word软件为了保持原文排版采用了大量的文本框。目前主流的PDF转word软件基本都是这样的。建议采用PDF转txt的方式处理,这样就没有图片了,不过对于复杂的公式当然也就没法处理了。语料库处理的大多数文件是txt格式的,那些语料库软件好像没见过直接能处理doc格式的。语料库好像主要针对纯文字类的文件,遇到公式图片的这种资料还是能不用就不用吧,毕竟网上可用的文字资料多的是。像你上面说的那种资料处理起来会用很长时间的。当然这种资料你想作为别的用途就另当别论了。
 
回复: 求助,文本清洁遇到的问题。

我基本就是人工处理, 很费时间,软件有的貌似可以,但是最后会影响所需数据, 这是一个很让人崩溃的工程.
 
回复: 求助,文本清洁遇到的问题。

谢谢老师~但是去除之后还是会有文本格式存在的情况~请问老师又没遇到过此类问题呢?
 
回复: 求助,文本清洁遇到的问题。

我基本就是人工处理, 很费时间,软件有的貌似可以,但是最后会影响所需数据, 这是一个很让人崩溃的工程.

嗯是的,我也有请教许家金老师。老师说有的时候只能手动进行清洁了。再次谢谢您的回复。
 
回复: 求助,文本清洁遇到的问题。

PDF文件不建议直接转word,因为直接转word处理起来很麻烦,PDF转word软件为了保持原文排版采用了大量的文本框。目前主流的PDF转word软件基本都是这样的。建议采用PDF转txt的方式处理,这样就没有图片了,不过对于复杂的公式当然也就没法处理了。语料库处理的大多数文件是txt格式的,那些语料库软件好像没见过直接能处理doc格式的。语料库好像主要针对纯文字类的文件,遇到公式图片的这种资料还是能不用就不用吧,毕竟网上可用的文字资料多的是。像你上面说的那种资料处理起来会用很长时间的。当然这种资料你想作为别的用途就另当别论了。

谢谢老师的建议。但是我目前想做的研究就是需要用到PDF格式的资料,现在也没有一些能够把PDF格式转换为TXT而不出现格式混乱的软件么??是不是就只能手动清洁了。。
 
Back
顶部