【求助】词性标注后出现的对齐问题

请教各位老师和高手们~
我在弄一个迷你平行语料库,在切分句子后分别用Treetagger和ICTClAS 2011对英语和汉语进行了词性标注,之后treetagger生成的OUT文件,ICTCLAS生成的我粘贴到记事本上了。接着用Parallel Text Aligner进行对齐,就出错了,生成的文件为空。Parallel Text Aligner要求UTF-8的文件,请问怎么转换呢??:confused:
 
回复: 【求助】词性标注后出现的对齐问题

请教各位老师和高手们~
我在弄一个迷你平行语料库,在切分句子后分别用Treetagger和ICTClAS 2011对英语和汉语进行了词性标注,之后treetagger生成的OUT文件,ICTCLAS生成的我粘贴到记事本上了。接着用Parallel Text Aligner进行对齐,就出错了,生成的文件为空。Parallel Text Aligner要求UTF-8的文件,请问怎么转换呢??:confused:

http://www.google.com.hk/search?sourceid=chrome&ie=UTF-8&q=utf-8+转换
 
回复: 【求助】词性标注后出现的对齐问题

请教各位老师和高手们~
我在弄一个迷你平行语料库,在切分句子后分别用Treetagger和ICTClAS 2011对英语和汉语进行了词性标注,之后treetagger生成的OUT文件,ICTCLAS生成的我粘贴到记事本上了。接着用Parallel Text Aligner进行对齐,就出错了,生成的文件为空。Parallel Text Aligner要求UTF-8的文件,请问怎么转换呢??:confused:

告诉你两个简单的转换UTF-8的做法:

1、如果文件不多,用记事本(Notepad)打开你的文件,然后转存,选择编码为UTF-8(见下图)。如果你的记事本没有这个选项,就使用EditPlus吧,网上一搜就有下载。

2、如果要批处理文本,建议使用转换工具,这里推荐香港李志成开发的免费软件ConvertZ。如果链接不能打开,自己就在网上搜搜吧。 下面是介绍:
ConvertZ is a Chinese/Japanese code converter. Features:
- Supported file (plain text) and clipboard conversion among the following encodings: big5, gbk, hz, shift-jis, jis, euc-jp, unicode big-endian, unicode little-endian, and utf-8.
- Batch files conversion
- Preview before actual conversion.
- Auto-update the charset in meta tag if specified in HTML docs.
- Auto-fix mis-mapped Big5/GBK characters.
- Change encoding of mp3's ID3v1/v2 tag among big5, gbk, shift-jis, unicode and utf-8.
 

附件

  • utf-8.jpg
    utf-8.jpg
    28.8 KB · 浏览: 2
回复: 【求助】词性标注后出现的对齐问题

告诉你两个简单的转换UTF-8的做法:

1、如果文件不多,用记事本(Notepad)打开你的文件,然后转存,选择编码为UTF-8(见下图)。如果你的记事本没有这个选项,就使用EditPlus吧,网上一搜就有下载。

2、如果要批处理文本,建议使用转换工具,这里推荐香港李志成开发的免费软件ConvertZ。如果链接不能打开,自己就在网上搜搜吧。 下面是介绍:
ConvertZ is a Chinese/Japanese code converter. Features:
- Supported file (plain text) and clipboard conversion among the following encodings: big5, gbk, hz, shift-jis, jis, euc-jp, unicode big-endian, unicode little-endian, and utf-8.
- Batch files conversion
- Preview before actual conversion.
- Auto-update the charset in meta tag if specified in HTML docs.
- Auto-fix mis-mapped Big5/GBK characters.
- Change encoding of mp3's ID3v1/v2 tag among big5, gbk, shift-jis, unicode and utf-8.
---------------------------------------------------------------------
laohong,非常感谢您的回复!我原来的做法是用记事本打开OUT文件,可以看到标记过的英文,还有标记过的中文,都转存成了UTF-8了(请见下图),但是对齐后还是出来0字节的空文件。是不是哪里操作有误?
我又按您给的第一条建议做了一遍,用editplus转存了英文文本,出来结果还是这样。。。郁闷。。。不知道是什么原因,请laohong指点。
 

附件

  • en-tagged.jpg
    en-tagged.jpg
    74.1 KB · 浏览: 4
  • zh-tagged.jpg
    zh-tagged.jpg
    86.2 KB · 浏览: 3
  • 未命名1.jpg
    未命名1.jpg
    13.2 KB · 浏览: 106
回复: 【求助】词性标注后出现的对齐问题

把英汉分词的标注格式统一下试试:"_"换成"/",或"/"换成"_"。
抑或是对齐工具不支持汉语,你用的是什么对齐工具?
 
回复: 【求助】词性标注后出现的对齐问题

把英汉分词的标注格式统一下试试:"_"换成"/",或"/"换成"_"。
抑或是对齐工具不支持汉语,你用的是什么对齐工具?


好的,我试试看。
用的是parallel text aligner中的Hunalign,试过对齐未标注的汉英文本,是没问题的。
 
回复: 【求助】词性标注后出现的对齐问题

把英汉分词的标注格式统一下试试:"_"换成"/",或"/"换成"_"。
抑或是对齐工具不支持汉语,你用的是什么对齐工具?

刚试了,把_替换成了/,还是不行:(
 
回复: 【求助】词性标注后出现的对齐问题

好的,我试试看。
用的是parallel text aligner中的Hunalign,试过对齐未标注的汉英文本,是没问题的。

既然文本编码没问题了,那就再去看看是不是格式等还不符合程序要求。没用过Hunalign,没法给你更多的帮助。仔细读一下帮助文件,用软件自带的文本练习练习。

或者你把软件和文本上传到这里,大家帮你试着看看。
 
回复: 【求助】词性标注后出现的对齐问题

既然文本编码没问题了,那就再去看看是不是格式等还不符合程序要求。没用过Hunalign,没法给你更多的帮助。仔细读一下帮助文件,用软件自带的文本练习练习。

或者你把软件和文本上传到这里,大家帮你试着看看。


谢谢laohong,我把文本发上来,麻烦您帮我看看是不是格式还有问题。
 

附件

  • En-tagged.txt
    24.1 KB · 浏览: 21
  • ZH-tagged-1.txt
    23.2 KB · 浏览: 13
回复: 【求助】词性标注后出现的对齐问题

谢谢laohong,我把文本发上来,麻烦您帮我看看是不是格式还有问题。
确实是utf-8,但可能还应考虑两点:
1、中文是一段,而英文则是以句为段,并且句标记符不一样:前者是_sent而中文是_w;
2、hunalign支持中英文对齐吗?
如果是1,则调整一下即可;如果是2,总无解。我直觉应该是2,即不支持中文。
 
回复: 【求助】词性标注后出现的对齐问题

确实是utf-8,但可能还应考虑两点:
1、中文是一段,而英文则是以句为段,并且句标记符不一样:前者是_sent而中文是_w;
2、hunalign支持中英文对齐吗?
如果是1,则调整一下即可;如果是2,总无解。我直觉应该是2,即不支持中文。

非常感谢xusun575!hunalign应该是支持中英文对齐的,我试着对齐过没有标注的中英文,见下图。
您说的第一个问题,应该怎么调整呢?新手上路,望不吝赐教,拜谢~~
另,英文和中文我都进行了分句处理,但是中文再用ICTCLAS 2011进行标注后,就变成了一堆,我都没注意,谢谢提醒!
 

附件

  • 对齐后.txt
    29.3 KB · 浏览: 20
回复: 【求助】词性标注后出现的对齐问题

似乎没有好办法替换,可以试试将_SENT,_w同时去掉;原因同xusun575所说。
 
回复: 【求助】词性标注后出现的对齐问题

非常感谢xusun575!hunalign应该是支持中英文对齐的,我试着对齐过没有标注的中英文,见下图。
您说的第一个问题,应该怎么调整呢?新手上路,望不吝赐教,拜谢~~
另,英文和中文我都进行了分句处理,但是中文再用ICTCLAS 2011进行标注后,就变成了一堆,我都没注意,谢谢提醒!
用查找替换就可以解决:
将"。_w"替换为"。_w"加"段落符",或"。_sent"加"段落符"即可。
 
回复: 【求助】词性标注后出现的对齐问题

非常感谢xusun575!hunalign应该是支持中英文对齐的,我试着对齐过没有标注的中英文,见下图。
您说的第一个问题,应该怎么调整呢?新手上路,望不吝赐教,拜谢~~
另,英文和中文我都进行了分句处理,但是中文再用ICTCLAS 2011进行标注后,就变成了一堆,我都没注意,谢谢提醒!

是否可能是,hunalign不支持经过赋码的语料呢?
 
回复: 【求助】词性标注后出现的对齐问题

是否可能是,hunalign不支持经过赋码的语料呢?

嗯,有可能。回头我问问parallel text aligner的开发者。
您的意思是把"._w"和"._SENT"都替换成"._w"加段落符或者"._SENT"加段落符?段落符是^p吗?
 
回复: 【求助】词性标注后出现的对齐问题

是否可能是,hunalign不支持经过赋码的语料呢?

这个可能性不大,赋码只是给原文增加了一些文字符号而已。用没赋码的语料测试一下就应该能知道问题所在了。重点注意一下段落句子格式以及特殊符号是否会导致程序出错。建议先用三四句话的短文本测试。debug是个累人的活,却也是喜欢problem-solving的人的春药.....
 
回复: 【求助】词性标注后出现的对齐问题

嗯,有可能。回头我问问parallel text aligner的开发者。
您的意思是把"._w"和"._SENT"都替换成"._w"加段落符或者"._SENT"加段落符?段落符是^p吗?

英文已经有作了分句处理,有了段落符,不用动了.只处理中文:将"。_w"替换为"。_w"加"段落符"即可,(或"。_sent"加"段落符")。在word中,段落符是^p.
 
回复: 【求助】词性标注后出现的对齐问题

这个可能性不大,赋码只是给原文增加了一些文字符号而已。用没赋码的语料测试一下就应该能知道问题所在了。重点注意一下段落句子格式以及特殊符号是否会导致程序出错。建议先用三四句话的短文本测试。debug是个累人的活,却也是喜欢problem-solving的人的春药.....

哈哈,"debug....春药", 会成为今年的流行语滴!laohong强人呵!:D
 
回复: 【求助】词性标注后出现的对齐问题

哈哈,"debug....春药", 会成为今年的流行语滴!laohong强人呵!:D

这年头群体性阳痿事件频传,下点“春药”自己动手debug总比被人蒙汗药好吧……
 
Back
顶部