PDA

查看完整版本 : help! how to convert the doc files to text files


patricx
2005-07-21, 12:10 AM
i want to make my own corpus, but all of the files are doc files. i don't know how to convert them into text files because wordsmith, xaira and concordancer softwares can't read doc files directly.
what shall i do? please help me, thank u very much!

动态语法
2005-07-21, 12:16 AM
Try within MS Word (or similar word processors):

File, Save as, (Save As Type, select) Plain Text, rename it with .txt as file extension.

patricx
2005-07-21, 12:23 AM
but i have hundreds of doc files to convert . it's impossible for me to do so.

xiaoz
2005-07-21, 12:36 AM
Download a batch Doc2Txt converion tool:
http://www.aptrio.com/Business/Word-Processing/cz-doc-txt-batch-text-file-converter-5055.html

patricx
2005-07-21, 12:44 AM
very good software, but it's very expensive

xiaoz
2005-07-21, 12:58 AM
you can download free of charge for trial evaluation.

patricx
2005-07-21, 01:06 AM
and the demo version hasn't full functions. and each time only converts 2 doc files and i have several hundreds of doc files. if it is cheaper, i will decide to buy a copy, but now nearly $100, too expensive.

xujiajin
2005-07-21, 10:57 AM
http://www.yesky.com/SoftChannel/72357786549223424/20041206/1884135.shtml
在工作中,有可能需要将大量Word的DOC文档格式转换为TXT文本文件格式。如果转换量少,可以在Word中利用“另存为”命令,但是当转换量比较大的时候用“另存为”的方法就很麻烦也很慢了,我们下面介绍如何在Word中利用“转换向导”快速完成这个任务的方法。具体操作以Word2003为例,其它版本可以参照进行。
  1. 为了便于管理和操作,我们先在资源管理器中新建两个文件夹,如在D盘创建“Word文档”和“文本文件”文件夹,然后把需要转换的DOC文档放在“Word文档”文件夹中,“文本文件”文件夹则存放转换后得到的文本文件。

  2. 启动Word 2003,选择菜单“文件”-“新建”命令,在Word窗口的右侧打开了“新建文档”任务窗格,单击任务窗格“模板”区的“本机上的模板”,打开“模块”对话框。选择“其它模板”选项卡,选中“转换向导”,单击“确定”按钮。

3. 接着显示“转换向导”对话框,单击“下一步”按钮,进入“转换”步骤。

  4. 由于我们的目标是把DOC文档转换为文本文件,因此在“转换”步骤点选“从Word文档格式转换为其它文件格式”单选框,然后单击“下拉”按钮,选择“纯文本”项,单击“下一步”按钮
5. 进入“选择文件夹”步骤后,单击“浏览”按钮设置“源文件夹”和“目标文件夹”(如图3),“源文件夹”就是存放需要转换的DOC文档的文件夹,“目标文件夹”用于存放转换后得到得文本文件的文件夹。这两个文件夹是我们第一步的时候准备好的,在这里要注意待转换的DOC文档已经放入“源文件夹”中。

6. 单击“下一步”按钮,进入“选择文件”步骤,由于我们希望转换“源文件夹”里的所有文件,因此单击“全选”按钮,依次单击“下一步”按钮和“完成”按钮,一会之后转换完成,接下来就可以在D盘的“文本文件”查看转换后得到的文本文件了。

  由此可见,“转换向导”还是相当实用的。从图2“转换”的步骤中我可以看出,这个“转换向导”还可以把Word文档批量转换为如HTML等很多格式,也可以把其它很多格式批量转换成Word文档,大家在以后的工作中有类似需求时,不妨留心一下“转换向导”功能。

patricx
2005-07-21, 11:57 AM
已经收藏了,真是太及时了啊.万分感激啊!!!

xujiajin
2005-07-21, 12:52 PM
This built-in MS Word batch converter is prefered to other text converters in that this one keeps intact the original text format (including all carriage return paragraph markups).

patricx
2005-07-21, 01:32 PM
that's right. nothing has been changed except the doc format to txt format. and some converters produce additional random codes, this one is super good.

xujiajin
2008-03-15, 12:46 AM
http://www.corpus4u.org/showthread.php?t=556&highlight=batch

xujiajin
2008-03-15, 12:47 AM
http://www.aptrio.com/Business/Word-Processing/cz-doc-txt-batch-text-file-converter-5055.html