除了 "发现当一个文本的一行文字全部为英语和数字的时候,程序就会停止分词"以外,我还碰到以下情况:
1. 电影字幕每三行成一行:
分词前:
68
00 : 05 : 06,700 - - > 00 : 05 : 11,700
本公司全体同仁都为许大同骄傲
分词后:
68 00 : 05 : 06,700 - - > 00 : 05 : 11,700 本 公司 全体 同仁 都 为 许 大同 骄傲
2. 有的ANSI 和UTF-8文件分词后成乱码,我要先将英文 Windows 7 Professional 语言 Non-Unicode 设成...