加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 大数据 > 正文

R语言做文本挖掘 Part2分词处理

发布时间:2021-03-06 00:02:51 所属栏目:大数据 来源:网络整理
导读:副标题#e# ?? 转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html Part2分词处理 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】 在RStudio中安装完相关软件包之后,才

在做分词处理时,可能会遇到一些比较精而专的文章,专业词汇在词库里面并没有,这时候就需要去找相关的词典,安装到R中。例如,在做新闻分析中,一些娱乐新闻里会有很多明星歌手的名字出现,这些名字在做分词时,不会被识别为一个个词。此时可能需要添加一个名字的词典,词典可以是自己建也可以从网上找。推荐从搜搜狗输入法的词库下载地址http://pinyin.sogou.com/dict/,可以选择需要的分类词典下载。

这里我用到的一个词典names的下载地址:http://pinyin.sogou.com/dict/cate/index/429。

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

R语言做文本挖掘 Part2分词处理

  1. segmentCN("2015年的几部开年戏都出现了唐嫣的身影")??
?[1] "2015 年 的 "???? " 几部 "? ?" 开 " ??

?[6] "戏"???? "都出现唐"???

[11] "嫣的身影"?

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读