R自然语言处理模块

回复: R自然语言处理模块

嗯,试了WordNet,很不错。下面是我在Ubuntu下的测试结果:

1. 安装 WordNet: sudo apt-get install wordnet
2. R> install.packages("wordnet")
3. R> library(wordnet)
R> synonyms("friend","NOUN")
[1] "acquaintance" "admirer" "ally" "booster" "champion" "friend"
[7] "Friend" "protagonist" "Quaker" "supporter"
 
回复: R自然语言处理模块

R很耀眼啊,还可以利用包的功能直接进行中文分词,值得好好学学。

R里常用的中文分词包有rmmseg4j (基于Maximum Matching算法), rsmartcn (ICTCLAS简化版本,去除了词性标注功能) ,rpaoing (Java-based).

1. rsmartcn
wget http://download.r-forge.r-project.org/src/contrib/rsmartcn_0.1-0.tar.gz
RStudio ->Tools -> Install Packages (install from .tar.gz)
R> library(rsmartcn)
R> smartcn("敢问路在何方,路在脚下。")
[1] "敢 问 路 在 何方 路 在 脚下"

2. rmmseg4j
R> install.packages("rmmseg4j")
R> library(rmmseg4j)
R> mmseg4j("敢问路在何方,路在脚下。")
[1] "敢问 路 在 何方 路 在 脚下"

3. rpaoding
wget http://download.r-forge.r-project.org/src/contrib/rpaoding_0.1-0.tar.gz
RStudio ->Tools -> Install Packages (install from .tar.gz)
R>library(rpaoding)
R> paoding("敢问路在何方,路在脚下。")
[1] "敢问 问路 何方 路 脚下"
 
Back
顶部