paraconc使用

回复: paraconc使用

Your problem is caused by incorrect encoding. You will need to save the Chinese file as UTF8, and check the box UTF8 when you load the corpus into ParaConc.

As you have marked up the segments, you can also specify the tag <seg>.

I'll wait and see.:p
 
回复: paraconc使用

You can search in English text in a corpus processed in this way. But if you want to search in chinese text, you will also need to tokenise Chinese data (using ICTCLAS, for example).
 

附件

  • test.jpg
    test.jpg
    158.4 KB · 浏览: 37
回复: paraconc使用

You can search in English text in a corpus processed in this way. But if you want to search in chinese text, you will also need to tokenise Chinese data (using ICTCLAS, for example).

Job well done, but I cannot follow why there should be all the repeatedly aligned c-e pairs? And are pairs 1, 3,4,5,10,10 and 17 automatically ignored by paraconc or manually deleted? Thanks!
 
回复: paraconc使用

Job well done, but I cannot follow why there should be all the repeatedly aligned c-e pairs? And are pairs 1, 3,4,5,10,10 and 17 automatically ignored by paraconc or manually deleted? Thanks!

上传的文本存在如下问题:1)英文有86段,中文有22段。这里段落其实是句级对齐单位。所以上传文本没有做到句级对齐,检索英文检索词的时候,对应的中文文本有重复对应的现象。其实,这样的短文章用EditPlus对齐很容易看出来。自动对齐靠不住,至少自动对齐之后要仔细postedit。
2)象xiaoz上面所说的那样,要想检索中文的词,必须在字之间加空格,或者进行分词处理,或者进一步做词性标注。
至于xiaozi上面说到的编码问题好像默认编码没有出现问题。
 
回复: paraconc使用

Your problem is caused by incorrect encoding. You will need to save the Chinese file as UTF8, and check the box UTF8 when you load the corpus into ParaConc.

As you have marked up the segments, you can also specify the tag <seg>.



Thank you so much, i 'll have a try.
 
回复: paraconc使用

上传的文本存在如下问题:1)英文有86段,中文有22段。这里段落其实是句级对齐单位。所以上传文本没有做到句级对齐,检索英文检索词的时候,对应的中文文本有重复对应的现象。其实,这样的短文章用EditPlus对齐很容易看出来。自动对齐靠不住,至少自动对齐之后要仔细postedit。
2)象xiaoz上面所说的那样,要想检索中文的词,必须在字之间加空格,或者进行分词处理,或者进一步做词性标注。
至于xiaozi上面说到的编码问题好像默认编码没有出现问题。
谢谢oscar3.多年没玩paraconc了.重复对齐给人以方便,印象中这和旧版有不同.中文检索要加空格或分词很麻烦,paraconc应该改一改了.
 
回复: paraconc使用

相关的内容贴在这里,也供自己以后想不起来的时候查询用
作者 XXXXXX:
弱弱的问一下:感觉paraconc已经给我对齐了啊,您说的句级对齐是什么意思呢?

对齐是指源文和目的文本在相同的层次上达到对等,如段落层次上对齐,就是源文和目的文本有相同的段落对应;句子层面对齐,就是两者有相同的句级单位;词层对齐不难理解。目前,一般用得比较广的对齐是句级对齐。虽说是句级对齐(并非一一对应,情况有好几种),在文本形态上却是以段落的方式出现的。即回车符成为句级单位的分界线,paraconc中的New line delimiter指的就这一分界线。很多文本处理软件中如EditPlus将我们平常在MS-word中的段落当作行。如果你对齐的时候如此(一般如此),你用Paraconc检索的时候也应该选此分界线,以便软件去自动寻找。当然,你如果嫌麻烦,可以以段为单位对齐也可,不过那样因为对应单位太大,要确定更小,如短语和词的对应翻译单位就麻烦多了。词层对齐比较理想,这也是目前很多技术人员正在解决的问题,但是,颗粒越细,对齐越难。目前,词层对齐技术还没有走出实验室。
 
回复: paraconc使用

...英文有86段,中文有22段。这里段落其实是句级对齐单位。...

...句子层面对齐,就是两者有相同的句级单位;...目前,一般用得比较广的对齐是句级对齐。虽说是句级对齐(并非一一对应,情况有好几种),在文本形态上却是以段落的方式出现的...QUOTE]

请教一下: 英文86段,中文22段,是如何统计的,以什么为标准?
相同的句级单位是什么意思?一句中文与其英文翻译,可能是一一对应,或者一句中文译成三句英文,这应该都是句级对齐吧。
 
回复: paraconc使用

There are repeated lines because I searched for "the", a very frequent word: alignment units which contain repeated use of "the" are repeated while those contains no instance of "the" are ignored.

Job well done, but I cannot follow why there should be all the repeatedly aligned c-e pairs? And are pairs 1, 3,4,5,10,10 and 17 automatically ignored by paraconc or manually deleted? Thanks!
 
回复: paraconc使用

...句子层面对齐,就是两者有相同的句级单位;...目前,一般用得比较广的对齐是句级对齐。虽说是句级对齐(并非一一对应,情况有好几种),在文本形态上却是以段落的方式出现的...QUOTE]

请教一下: 英文86段,中文22段,是如何统计的,以什么为标准?
相同的句级单位是什么意思?一句中文与其英文翻译,可能是一一对应,或者一句中文译成三句英文,这应该都是句级对齐吧。

对不起,虽然你的两个文件段落不等,但是86和22两个数字是我弄错了。你既然在使用Paraconc,你还是仔细阅读一下老巴的manual,那manual倒是写得很清楚的。基本问题解决之后,你还是去读一读。有什么进展了再来和大家分享一下。这坛子上很多人都不是手把手由老师教出来的。
 
回复: paraconc使用

There are repeated lines because I searched for "the", a very frequent word: alignment units which contain repeated use of "the" are repeated while those contains no instance of "the" are ignored.

Got it,thank u,xiaoz.:p
 
回复: paraconc使用

请教各位高人,由于Demo版的paraconc无法保存检索后的结果(如图),这些检索行该用什么方法导出?在下先谢过了!
 

附件

  • error.jpg
    error.jpg
    196.7 KB · 浏览: 11
Last edited:
Back
顶部