中文手机短信语料

编号: NLPLAB2010T003

时间: 2010-05-28

语料: 中文手机短信

缩写: CSMS

版本: 1.0

版权: 刘伍颖

联系:
(1)邮箱: nlplab@163.com; <自然语言处理实验室>
(2)手机: 13787784974
(3)QQ: 44631423
(4)网址: http://nlplab.webhop.net

格式: 文本文件, UTF-8编码

语言: 中文

用途: 短文本研究, 垃圾手机短信过滤

介绍:
(1)CSMS语料是按时间顺序从志愿提供者那里收集的真实中文手机短信; 每条短信的类别标注信息是根据提供者的反馈进行人工标注的.
(2)总共包含85,870条手机短信, 其中垃圾短信21,099条, 非垃圾短信64,771条.
(3)每条短信文本内容包含源电话号码, 目的电话号码, 短信正文三部分; 出于隐私保护考虑, 电话号码进行了替换, 但不改变通话关系网络.
(4)短信文本内容与类别标注是分开存储的; 在csms/data/目录下存储短信文本内容, 包含85,870个文本文件; 在csms/full/目录下存储类别标注文件.
 

附件

  • csms-toy.zip
    24.5 KB · 浏览: 202
回复: 中文手机短信语料

但据我所知,手机短信不能用于研究。国家禁止发表相关成果。
 
Back
顶部