如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

linp · 2011-08-08

我的研究题目是要查一下在我的语料库里用了多少个英文片语.我想以牛津剑桥的英文片语字典做基础,将每个收录在这两大片语字典的片语都在我的语料库自动搜寻一下.请问各位我如何才能提取到收录在这两大英文片语字典的条目呢?是否有一个聪明的方法解决这个问题?我现在只能想到用人手每个片语输入电脑, 这可用上我几个月光阴啊!请各位高手帮忙!

seanxpq · 2011-08-09

回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 linp:
我的研究题目是要查一下在我的语料库里用了多少个英文片语.我想以牛津剑桥的英文片语字典做基础,将每个收录在这两大片语字典的片语都在我的语料库自动搜寻一下.请问各位我如何才能提取到收录在这两大英文片语字典的条目呢?是否有一个聪明的方法解决这个问题?我现在只能想到用人手每个片语输入电脑, 这可用上我几个月光阴啊!请各位高手帮忙!

弄到词典的PDF版本，用OCR识别，存为TXT，再稍加编辑就可以了。

Haiyang Ai · 2011-08-09

回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

看有没有文本格式的片语录。使用 file-based concordance 可以批量搜索，不必一条一条手工做。

linp · 2011-08-09

回覆: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

谢谢指教!拿到文字档之後,文字档内会包含对每个片语的解释, 如果没有XML tags,是否真的要用人手将每一个片语的注解和它的Headword 分开呢?有没有自动化一点的方法?

xujiajin · 2011-08-09

回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

如你所言，如果没有明显的tag，比如phr，是不容易将词典文本中的短语提取出来的。
当然或许可以找找看，文本中是否有规律可循，你可否上传部分含phrase的词典文本上来，大家或许有办法，也未可知。

linp · 2011-08-16

回覆: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

我找来了朗文及柯林斯短语字典(请看附加档案),朗文字典找来时已经有颇准确的OCR,但柯林斯字典是我自己买回来人手扫瞄的,扫描的质量不错,可惜没有很准确的OCR工具认字,试过了Acrobat Professional 9的OCR工具,效果不是很好.

请问各位能否帮忙解决两个问题:
1. 如何从已经过OCR处理的朗文字典提取我所需的短语列表?
2. 有没有准确的OCR软件可以介绍给我?

谢谢各位.

xusun575 · 2011-08-17

回复: 回覆: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 linp:
谢谢指教!拿到文字档之後,文字档内会包含对每个片语的解释, 如果没有XML tags,是否真的要用人手将每一个片语的注解和它的Headword 分开呢?有没有自动化一点的方法?

看了你提供的材料,并亲手做了一下,是有"自动化一点的办法"的:熟悉正则,或熟悉word的高级查找替换,都能成功.
识别用的是abbyy９，效果非常好，好象没有比这更好的OCR工具了,你可以看一下OCR的结果．
思路就是要分析一下两种辞典的形式规律.
比如,longman的最大特点是其片语的字体和字号与其它描述部分有显著区别,这样,通过把该字体字号的找到,其它删除即可. 这个用word查找替换就可以了.
collins的特点是,大多数片语都在")"的后面,且后续的解释部分用"When..."或"If ...."开始的;如果是多重解释,且片语本身紧跟的是段落标记.这样也就很方便提取.collins用正则可能会更方便，但，word虽步骤多一点，只要习惯了，也很方便
附件的结果，都是用word做的，你可以参考一下．longman是finalised,而collins semifinal，这样你也思考一下.
　使用提取过程中还有些细节，你可以边做边摸索．
OCR设置和语言选择也需要根据正率调试一下。如果这方面有困难，文件传给来，我给识别一下也非常简单。

seanxpq · 2011-08-17

回复: 回覆: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 xusun575:
看了你提供的材料,并亲手做了一下,是有"自动化一点的办法"的:熟悉正则,或熟悉word的高级查找替换,都能成功.
识别用的是abbyy９，效果非常好，好象没有比这更好的OCR工具了,你可以看一下OCR的结果．
思路就是要分析一下两种辞典的形式规律.
比如,longman的最大特点是其片语的字体和字号与其它描述部分有显著区别,这样,通过把该字体字号的找到,其它删除即可. 这个用word查找替换就可以了.
collins的特点是,大多数片语都在")"的后面,且后续的解释部分用"When..."或"If ...."开始的;如果是多重解释,且片语本身紧跟的是段落标记.这样也就很方便提取.collins用正则可能会更方便，但，word虽步骤多一点，只要习惯了，也很方便
附件的结果，都是用word做的，你可以参考一下．longman是finalised,而collins semifinal，这样你也思考一下.
　使用提取过程中还有些细节，你可以边做边摸索．
OCR设置和语言选择也需要根据正率调试一下。如果这方面有困难，文件传给来，我给识别一下也非常简单。

能否麻烦孙教授把WORD中查询替换的具体过程讲讲？谢谢！

xusun575 · 2011-08-17

回复: 回覆: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 seanxpq:
能否麻烦孙教授把WORD中查询替换的具体过程讲讲？谢谢！

以longman为例：
字体是Franklin Gothic Heavy，字号为10
前三步见附图.
最后一步是存为txt除噪,导入word删除其它符号、排序整理即可。

xusun575 · 2011-08-17

回复: 回覆: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 xusun575:
以longman为例：
字体是前三步见附图.
最后一步是存为txt除噪,导入word删除其它符号、排序整理即可。

前三步是：
1、把Franklin Gothic Heavy，字号为10的字符加红（并可加粗）；
2、非红字符删除；
3、第三步删除全部大写字母（使用通配符）。

linp · 2011-08-17

回覆: 回复: 回覆: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 xusun575:
看了你提供的材料,并亲手做了一下,是有"自动化一点的办法"的:熟悉正则,或熟悉word的高级查找替换,都能成功.
识别用的是abbyy９，效果非常好，好象没有比这更好的OCR工具了,你可以看一下OCR的结果．
思路就是要分析一下两种辞典的形式规律.
比如,longman的最大特点是其片语的字体和字号与其它描述部分有显著区别,这样,通过把该字体字号的找到,其它删除即可. 这个用word查找替换就可以了.
collins的特点是,大多数片语都在")"的后面,且后续的解释部分用"When..."或"If ...."开始的;如果是多重解释,且片语本身紧跟的是段落标记.这样也就很方便提取.collins用正则可能会更方便，但，word虽步骤多一点，只要习惯了，也很方便
附件的结果，都是用word做的，你可以参考一下．longman是finalised,而collins semifinal，这样你也思考一下.
　使用提取过程中还有些细节，你可以边做边摸索．
OCR设置和语言选择也需要根据正率调试一下。如果这方面有困难，文件传给来，我给识别一下也非常简单。

老师，很感谢您详尽的解释。我试用过您介绍的Abbyy软件了，的确非常准确。可惜我还是不会调试该系统，未知可否麻烦您帮忙一下OCR两本字典，此後我会根据老师的提示自己尝试提取短语项目。谢谢你。

柯林斯字典（200MB, 希望连结能用）
http://dl.dropbox.com/u/32136110/Collins COBUILD Phrasal Verbs Dictionary.pdf

朗文字典（200MB, 希望连结能用）
http://dl.dropbox.com/u/32136110/Longman phrasal verbs dictionary.pdf

xusun575 · 2011-08-17

回复: 回覆: 回复: 回覆: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 linp:
老师，很感谢您详尽的解释。我试用过您介绍的Abbyy软件了，的确非常准确。可惜我还是不会调试该系统，未知可否麻烦您帮忙一下OCR两本字典，此後我会根据老师的提示自己尝试提取短语项目。谢谢你。

柯林斯字典（200MB, 希望连结能用）
http://dl.dropbox.com/u/32136110/Collins COBUILD Phrasal Verbs Dictionary.pdf

朗文字典（200MB, 希望连结能用）
http://dl.dropbox.com/u/32136110/Longman phrasal verbs dictionary.pdf

好的,晚上我给你处理一下,整个过程需要一点时间,办公室弄一下,人歇PC不歇,但愿能下载啊.

linp · 2011-08-17

回覆: 回复: 回覆: 回复: 回覆: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 xusun575:
好的,晚上我给你处理一下,整个过程需要一点时间,办公室弄一下,人歇PC不歇,但愿能下载啊.

非常感激老师的帮忙!

xusun575 · 2011-08-18

回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

好了. 两部辞典你都试着整理一下.
先Longman后Collins, 有了心得或问题,可在这个帖子下交流,让大家分享解决.

linp · 2011-08-18

回覆: 回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 xusun575:
好了. 两部辞典你都试着整理一下.
先Longman后Collins, 有了心得或问题,可在这个帖子下交流,让大家分享解决.

谢谢老师在百忙中仍抽空帮忙,我会现在先开始处理朗文字典,然後再处理柯林斯字典,遇到问题或完成後再发帖跟大家分享成果.

jasonhorse · 2011-08-18

回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

可以考虑用powergrep运用正则表达式提取。
由于本人正则表达式也是刚刚入门，所以用了个简单的正则表达式把collins词典中的大部分片语提取出来（附件 collins.txt).

linp · 2011-08-19

回覆: 回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 jasonhorse:
可以考虑用powergrep运用正则表达式提取。
由于本人正则表达式也是刚刚入门，所以用了个简单的正则表达式把collins词典中的大部分片语提取出来（附件 collins.txt).

谢谢您介绍新软件PowerGREP.我正在处理朗文字典,而且都有用上Regex.我找到了朗文字典变化出五千短语的动词(因为它们都是大写的),可是这距离目标还差很远.总是觉得有部分有用的资料在自动化的过程中不慎被去掉,到时可能又要用人手对一次才能确保资料准确.

xusun575 · 2011-08-20

回复: 回覆: 回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 linp:
谢谢您介绍新软件PowerGREP.我正在处理朗文字典,而且都有用上Regex.我找到了朗文字典变化出五千短语的动词(因为它们都是大写的),可是这距离目标还差很远.总是觉得有部分有用的资料在自动化的过程中不慎被去掉,到时可能又要用人手对一次才能确保资料准确.

看你这段描述,你在提取时肯定出现了问题.
处理中的细节要注意和调整.pdf的量对识别结果是有影响的.
首先,如果你使用的是我提供的OCR稿,longman的短语动词肯定不会大写.
第二, "自动化的过程",如果是指OCR,那么肯定不会"去掉"任何内容.情况可能是有些未被识别成文字,而是作为图表(图形)保存在OCR结果文件中.

为此,建议你首先查找出这些图形部分,并逐一将其替换出相应的短语动词,(很方便,在word中有 ^g查找即可).
然后再分析文本, 以便提取所有的短语动词.

xusun575 · 2011-08-20

回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

作者 jasonhorse:
可以考虑用powergrep运用正则表达式提取。
由于本人正则表达式也是刚刚入门，所以用了个简单的正则表达式把collins词典中的大部分片语提取出来（附件 collins.txt).

学有所成可喜可贺

jasonhorse · 2011-08-20

回复: 如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

谢谢孙教授美言。这几天孩子比较闹腾，也只好利用她睡觉的时间来动手搞搞正则表达式。To linp：对于collins词典，我又把原来的提取表达式改了一下，这样就可以一次性提取大部分分布有规则的片语。不过提取之前最好把文本稍微整理干净，要不然可能会出现遗漏。请查看附件，也许能帮点忙。
PowerGrep里用此表达式(见附件：正则表达式collins）
提取出来后纯净文本，可选用editpro软件的查找替换（见附件：去噪）
提取出来的片语见 txt附件。大约有3000个。如有遗漏可能在文本扫描或纯净方面还有问题。

如何可以简单地提取牛津剑桥的英文片语字典内收录的片语?

linp

seanxpq

corpus explorer

Haiyang Ai

Administrator

linp

xujiajin

管理员

linp

附件

xusun575

高级会员

附件

seanxpq

corpus explorer

xusun575

高级会员

附件

xusun575

高级会员

linp

xusun575

高级会员

linp

xusun575

高级会员

附件

linp

jasonhorse

附件

linp

xusun575

高级会员

xusun575

高级会员

jasonhorse

附件