回覆: Windows下NLTK的安装和入门
非常感谢d大回复,指出了我观念上的错误。
我后来使用了网络上下载的复旦大学的文本分类语料库,用chardet测出该文本是用gb2312编码
我试了您说的办法,但是出现'cp950' codec can't encode character u'\u5b66' in position 2: illegal multibyte sequence
参照其他网站上的指示,问题似乎是windows命令行用的是cp936(但我的系统是英文的,大概就是cp950了吧)。用decode和encode函数对字符重新解码和编码...