制作电影字幕语料库

1 搜集电影及匹配字幕
2将srt 文档转为txt 文档并标注电影文件名
3 去除字幕文件中的中文, 保留英文

我的问题出现了,保存为 txt 文档的英文字幕再次打开时有一些乱码很像中文, 不知道怎样去掉
这些乱码会否影响检索的效果?

除了txt 是否还有其他格式也可以被wordsmith 检索?
 
Back
顶部