查看完整版本 : pdf转TXT乱码怎么办?
jerrycheny
2006-07-10, 03:00 PM
下载了很多文学作品,但是都是PDF,而且转换成TXT的时候都乱码,求教高手有什么解决办法吗?谢谢!
将PDF文件中的文本部分选定后使用复制和粘贴存为文本文件。因为PDF中非文本部分转化时经常乱码。
xusun575
2006-07-10, 05:57 PM
以下是引用 jerrycheny 在 2006-7-10 15:00:19 的发言:
下载了很多文学作品,但是都是PDF,而且转换成TXT的时候都乱码,求教高手有什么解决办法吗?谢谢!
中文还是英文?若是英文,可以试用专门的软件转换.
yinghuang
2006-07-10, 08:04 PM
可以用cajview打开,然后再复制到text.
jackie
2006-07-11, 10:08 PM
遇到过类似的事,当时采取的方法是2楼和4楼的综合,因为有的文章在pdf中不能复制但可在caj中进行。不过有些文章采用这两种方法都不行,我只好放弃。另外,变成txt后,要手动进行修正,主要是换行时的标点符号错误和单词内多余空格的问题。good luck:)
以下是引用 jackie 在 2006-7-11 22:08:16 的发言:
遇到过类似的事,当时采取的方法是2楼和4楼的综合,因为有的文章在pdf中不能复制但可在caj中进行。不过有些文章采用这两种方法都不行,我只好放弃。另外,变成txt后,要手动进行修正,主要是换行时的标点符号错误和单词内多余空格的问题。good luck:)
用Textpro处理汉语文本中的问题:
http://www.corpus4u.com/forum_view.asp?view_id=2041&forum_id=54
yinghuang
2006-07-12, 11:35 AM
使用cajviewer把整本书转换成text后好像页码顺序会有些乱。请注意。
xusun575
2006-07-12, 12:47 PM
挂一部PDF作品上来,大家都来试试,不就解决了?
jerrycheny
2006-07-12, 03:53 PM
我用CAJ转换,然后用PROFTEXT处理,但是每个词之间有空格,怎么去掉?顺便这里粘贴一个,大家有空试一试怎么处理吧,谢谢!http://forum.corpus4u.org/upload/forum/2006071215513432.pdf
xujiajin
2006-07-12, 04:29 PM
去除每个字中间的空格的办法如下:
在Word的查找和替换中
查找中输入:^?加一个空格
替换为:^&
然后全部替换就可以了。
armstrong
2006-07-12, 04:50 PM
上面的PDF文件《呼啸山庄》可以转化成这样的文本文件。http://forum.corpus4u.org/upload/forum/2006071216500639.rar
xusun575
2006-07-12, 06:11 PM
armstrong,很棒!用的什么方法啊?
armstrong
2006-07-12, 06:48 PM
分三步进行:
1.用Cajview打开此文件,然后另存为.txt文件。
2.将.txt文件复制到Word.
3.用其中替换功能分两次进行,第一次去掉字间的空格,第二次去掉多余的空行。
xusun575
2006-07-12, 10:14 PM
处理很巧妙,谢谢!
jerrycheny
2006-07-13, 09:00 AM
以下是引用 armstrong 在 2006-7-12 18:48:46 的发言:
分三步进行:
1.用Cajview打开此文件,然后另存为.txt文件。
2.将.txt文件复制到Word.
3.用其中替换功能分两次进行,第一次去掉字间的空格,第二次去掉多余的空行。
xu老师已经告诉我们怎么去空格,请问怎么去多余的空行?我一般是一个一个删掉的。应该有什么见到的办法吧?谢谢!
armstrong
2006-07-13, 09:07 AM
在查找栏中输入^P^P
在替换栏中输入^P
然后进行替换,多进行几次,直至所有的多余的空行没有为止。
jerrycheny
2006-07-13, 02:25 PM
以下是引用 armstrong 在 2006-7-13 9:07:14 的发言:
在查找栏中输入^P^P
在替换栏中输入^P
然后进行替换,多进行几次,直至所有的多余的空行没有为止。
我用xu老师的办法去空格"^? "替换为"^&",但是还是不能去除空格,字与字之间还是有一个空格,是不是我哪里设置有问题?还是我太笨了
vBulletin® v3.7.4,版权所有 ©2000-2009,Jelsoft Enterprises Ltd.