加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 大数据 > 正文

R语言做文本挖掘 Part2分词处理

发布时间:2021-03-06 00:02:51 所属栏目:大数据 来源:网络整理
导读:副标题#e# ?? 转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html Part2分词处理 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】 在RStudio中安装完相关软件包之后,才

分词已经有结果了,但是分词的结果中存在很多像,“吧”,“吗”,“的”,“呢”这些无实际含义的语气词,或者是“即使”,“但是”这样的转折词,或者是一些符号,这样的词就叫做停词。要做进一步的分析可能需要去掉这些停词。

先自己整理一个停词表,这个停词表是我自己找的,包含一些常见的停词,然后根据实际内容中出现的一些无实际分析意义的词语,就可以作为我们的停词表了,网上能找到别人已经整理好的停词表。

[plain] view plain copy print ?

R语言做文本挖掘 Part2分词处理

R语言做文本挖掘 Part2分词处理

  1. stopwords<-?unlist(read.table("D:RRWorkspaceStopWords.txt",stringsAsFactors=F))??
  2. stopwords[50:100]??
? ?? ? V150?????? V151?????? V152?????? V153?????? V154?????? V155?????? V156

??? "哎哟唉俺俺们"? ?????"按按照吧????? V157?????? V158?????? V159?????? V160?????? V161?????? V162?????? V163

吧哒把罢了被本本着比????? V164?????? V165?????? V166?????? V167?????? V168?????? V169?????? V170

?? ?"比方比如鄙人彼彼此边别????? V171?????? V172?????? V173?????? V174?????? V175?????? V176?????? V177

别的别说并并且不比不成不单????? V178?????? V179?????? V180?????? V181?????? V182?????? V183?????? V184

不但不独不管不光不过不仅不拘????? V185?????? V186?????? V187?????? V188?????? V189?????? V190?????? V191

不论不怕不然不如" ????"不特不惟不问????? V192?????? V193?????? V194?????? V195?????? V196?????? V197?????? V198

不只朝朝着趁趁着乘冲????? V199????? V1100

????? "除除此之外"

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读