youngberry的最近内容

  1. Y

    upenn chinese treebank

    It seems purchasing from LDC is the only way to obtain Penn Chinese Treebank. Does anybody know a cheaper way to get this corpus? thx
  2. Y

    Windows下NLTK的安装和入门

    回覆: Windows下NLTK的安装和入门 非常感谢d大回复,指出了我观念上的错误。 我后来使用了网络上下载的复旦大学的文本分类语料库,用chardet测出该文本是用gb2312编码 我试了您说的办法,但是出现'cp950' codec can't encode character u'\u5b66' in position 2: illegal multibyte sequence 参照其他网站上的指示,问题似乎是windows命令行用的是cp936(但我的系统是英文的,大概就是cp950了吧)。用decode和encode函数对字符重新解码和编码...
  3. Y

    【工具包下载】NLTK免安装完整版.rar

    回覆: 【工具包下载】NLTK免安装完整版.rar 李博士好, 想请教几个问题。 首先,该如何在windows7英文版介面python上处理汉字呢? 我在网路上下载了复旦大学的文本分类语料库,想在个别的分类中找寻搭配词。 该语料库的所有文件应该是以gb2312编码。 我应该怎麽做才能在python上将所有文件正确显示汉字呢?(只在第一行执行#-*-coding: gbk-*-)还是不能成功。会显示类似这样的字串\xca\xd5\xb 另外,网路上有人推荐结巴分词在nltk上做汉语分词,不知您是否有其他推荐的分词工具。或能不能用nltk里的分词工具操作即可。...
  4. Y

    Windows下NLTK的安装和入门

    回覆: Windows下NLTK的安装和入门 想請教高手要如何在win 7, python 2.7環境下 執行NLTK sinica_treebank時可以讓它輸出中文嗎? 例如 print sinica_treebank.words()時 可在屏幕上顯示中文而非\xXX 我已經在首行鍵入 #coding = UTF-8 但還是無效 感謝回覆
Back
顶部