加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 大数据 > 正文

R语言做文本挖掘 Part2分词处理

发布时间:2021-03-06 00:02:51 所属栏目:大数据 来源:网络整理
导读:副标题#e# ?? 转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html Part2分词处理 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】 在RStudio中安装完相关软件包之后,才
副标题[/!--empirenews.page--]

??

转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html

Part2分词处理

【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】

在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看!

1.?????? RWordseg功能

说明文档可在http://download.csdn.net/detail/cl1143015961/8436741下载,这里只做简单介绍。

分词

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

R语言做文本挖掘 Part2分词处理

  1. segmentCN(c("如果你因为错过太阳而流泪",?"你也会错过星星"))??
[[1]]

[1] "如果""你"?? "因为" "错过太阳而"?

[8] "流泪"

[[2]]

也会星星"

可以看到分词的效果不是很理想,“错过”这是一个词却被分开了,说明词库中不存在这个词,所以,我们有时候需要向词库中添加我们需要的词语。

加词删词

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

R语言做文本挖掘 Part2分词处理

  1. insertWords("错过")??
  2. segmentCN(c("如果你因为错过太阳而流泪",?"你也会错过星星"))??
热点阅读