关于CUC_Paraconc

回复: 关于CUC_Paraconc

问题找到了,是语料没有对齐。一对一有初步的自动判断语料是否对齐的功能,一对多却没有把这个功能做进去,以后会考虑把这个小功能加进去。

好的,谢谢程老师,辛苦了。
 
回复: 关于CUC_Paraconc

[FONT=宋体]程博士您好,请允许我冒昧地再提几个建议:[/FONT]
[FONT=宋体]1[/FONT][FONT=宋体]、调入语料[/FONT][FONT=宋体]的设置[/FONT]
[FONT=宋体]在选择源文本目录时,只能选择一个文件夹,对文件夹里面所有的语料进行检索。有时只想检索文件夹中一对或几对文本,不需要检索全部文本。希望能增加自由选择文本的选项,可以自由选择其中一对或几对语料。也就是说,调入语料是两种方式,一种是选择目录,另一种是选择成对的文本。[/FONT]
[FONT=宋体]2[/FONT][FONT=宋体]、检索结果的统计:[/FONT]
[FONT=宋体]在检索结果出现时都会跳出一个对话框:“总共检索到****对句子;共有原文关键词:****个;共有译文关键词:****个”。但点击确认后,就消失了。希望这个统计结果能在检索结果表格的最下方(或最上方),固定显示出来。[/FONT]
[FONT=宋体]另外,希望在每一对文本的检索结果下方,也能显示统计结果。就是对每对文本进行单独统计。例如:[/FONT]
[FONT=宋体]======[/FONT][FONT=宋体]以上检索结果出自:******.txt====== 共有关键词:***个[/FONT]
[FONT=宋体]======Above results come from[/FONT][FONT=宋体]:******.txt====== 共有关键词:***个[/FONT]
[FONT=宋体]再,上面的检索结果统计最好不计算在表格序号(No)内,就是不占用表格序号。不然,表格的序号与检索到总的句子对数不一致。[/FONT]
[FONT=宋体]3[/FONT][FONT=宋体]、一对多检索的显示方式,不知是否能由图1的显示方式变成图2的显示方式。一对多检索没有根据序号查看源文本的功能,因此,图1的第一列连续的序号并无实际用途。在以后版本中,如果能有查看(或链接)源文本的功能,希望以双击语料的形式实现。[/FONT]
4[FONT=宋体]、如果有可能的话,在关键词检索、正则表达式检索之外,再增加一项——标注检索。就是类似于[/FONT]HyConc[FONT=宋体]的那种检索标注搭配的功能。这种检索方式是否有必要设置,以及应如何设置才会更加高效,还请程博士斟酌,也请其他朋友多多指点。[/FONT]

[FONT=宋体][FONT=宋体]屡次给您出难题,还请您原谅![/FONT][/FONT]
 

附件

  • 1.jpg
    1.jpg
    123 KB · 浏览: 6
  • 2.jpg
    2.jpg
    123.2 KB · 浏览: 4
Last edited:
回复: 关于CUC_Paraconc

再增加一条!
在“调入语料及设置检索参数”界面的“检索结果设置”版块,希望能增加一个选项——“检索结果增加文件名”。
如果选择了这一项,就可以在检索结果的原文句子结尾处显示类似“[FONT=宋体]======******.txt”[/FONT][FONT=宋体]的文件名。希望增加这一项的目的主要是,语料文本如果太多的话,有时不好判断是哪个文本里的句子。如果只对一对文本检索,就不需要选择这一项了。您的一对多检索里已经有这个功能了,在检索结果的原文后面显示路径。其实显示文件名就可以了。[/FONT]
[FONT=宋体]给您出了这么多难题,有些可能很难实现,还希望在您有时间的情况下,慢慢来。非常感谢您![/FONT]
 
回复: 关于CUC_Paraconc

http://ishare.iask.sina.com.cn/f/25022383.html
已经对平行语料检索软件进行了部分修改,请许家金老师,或者其他老师下载后,传到自己的共享文件中让大家下载,如果在使用中发现问题,请大家及时反馈。
主要增加了如下功能:
1允许双击输入停用词的文本框,调入停用词表,原来在检索时只能排除一个词,修改后,可以排除一组词。(停用词以回车换行为标记)
2新增加了一个关键词着色窗口,供大家选择,检索后,关键词用红色显示。
3一对多检索,增加了一个小功能,可以双击原著文本框调入文本的前缀。
如果有一对多,多个文本,每次检索的时候,都要把前缀复制到软件中,比较麻烦,可以把前缀保存到一个文本中,首行为原著前缀,其它行为译著前缀,软件可以自动调入前缀。(前缀以回车换行为标记)
另外回答一下siqing3868的问题,一对多可以检索关键词,也可以输入正则式进行检索,如果大家觉得不方便,以后可以另外再增加单独针对关键词的一对多检索。如果检索不出,注意:是否选择对齐的译本数;是否正确选择文本的编码方式;是否输入一对多原著与译著的前缀;文本命名是否正确。
其它功能暂时没有增加进去的,我会抽出时间不断修改的,一步步加进去。
感谢xvlei1126的宝贵意见,感谢大家的支持!!!
非常感谢,期待新版本
 
回复: 关于CUC_Paraconc

[FONT=宋体]最近在使用CUC_Paraconc的过程中,又有了一点想法,对前面的建议的进行一些调整。
调入语料及设置检索参数界面的“检索结果增加出处”这个选项,[/FONT]
[FONT=宋体]不知是否可以调整为“检索结果增加文件名”。[/FONT]
如果选择了这一项,就会在每个检索结果原文句子结尾处显示类似“[FONT=宋体]======******.txt”[/FONT][FONT=宋体]的文件名。[/FONT][FONT=宋体]不用再显示以下这样的“检索结果出处”。
======[/FONT][FONT=宋体]以上检索结果出自:******.txt[/FONT]

[FONT=宋体]======Above results come from[/FONT][FONT=宋体]:******.txt
这样调整就可以解决上述[/FONT]
[FONT=宋体]“检索结果出处”占用表格序号的现象,使表格的序号与检索到的句子数一致。而且语料句子的出处也非常清晰。至于前面提到的对每个语料文本进行统计的功能,可以专门设一个统计的界面来实现,如果有可能的话,以后慢慢来。
一致非常感谢您,这次就不再说更多感谢的话了。如果我的建议如果能对软件的改进有帮助,我非常高兴;如果我的想法还不成熟,也希望不要破坏您的改进思路。
[/FONT]
 
回复: 关于CUC_Paraconc

It would be great if an English version of the tool could be produced which could be introduced to participants of the UCREL Corpus Linguistics Summer School.
 
回复: 关于CUC_Paraconc

It would be great if an English version of the tool could be produced which could be introduced to participants of the UCREL Corpus Linguistics Summer School.
非常感谢!最近正好想拿出时间来修改软件,但英语水平不好,如果有谁能帮助翻译,本人愿意在最近这段时间把软件重新修改一下,做成汉、英两个版本,如果大家有什么需要,希望能提出宝贵意见。为了更好的服务大家,以及交流的方便,创立了QQ群,群号:127603489。
 
CUC_Paraconc修改最新进展汇报

本人最近对CUC_Paraconc的所有代码进行了重写,目前已经完成汉英一对一双语保存在一个文本的情况的检索,将不需要用户进行任何选择,可以自动识别四种存储形式(汉语在前,汉语在后,汉语整体在前,汉语整体在后),并可以把四种形式的文本乱在一起检索,同时实现了排序功能。根据大家的意见,还实现了对调入的文本进行选择,比如一次载入多个文本,可以选择其中的几个文本检索。

个人的力量有限,诚望C友帮忙测试程序。

英语版本将在汉语版本完成后进行翻译。
 
回复: 关于CUC_Paraconc

进展汇报:
已经完成关键词居中变色及排序功能,一对多完成了1本16译的检索。
想测试的C友可以加QQ到群空间下载。
非常感谢刘老师抽出宝贵时间帮忙测试!
 
回复: 关于CUC_Paraconc

在肖老师的建议下,目前已经基本完成了双语界面开发,并可根据需
要翻译成任意一种语言的界面,在此对肖老师表示衷心的感谢!
同时对软件的功能也进行了较多的修改,不久即可发布测试版本。
 
回复: 关于CUC_Paraconc

cucparaconc V0.3 测试版本已经开发完成,将在10天左右发布,如果有兴趣的C友,可以先到QQ群共享中心下载:127603489。本群出入自由,下载后,可自行退出该群。
新增加较多功能,关键词对齐,变色,排序,1对16检索,英汉双语版本,并可以修改成任意其他国家语言。
 
回复: 关于CUC_Paraconc

Thanks. Good job.

两个小问题:
1. 程序在Windows XP下运行错误,是否可以在使用说明里提醒用户下载.net框架?
2. LanguageSetting.xml的encoding是否可以改为utf-8以便在浏览器查看?
 
回复: 关于CUC_Paraconc

还有一个疑问:如何从KWIC模式退回到非KWIC句子模式?
 
Back
顶部