加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

“数据分析岗位”招聘情况分析!| Execl版

发布时间:2019-04-28 03:30:16 所属栏目:教程 来源:佚名
导读:副标题#e# 为了练习Excel技能,以及实践数据分析的流程。我用Web Scraper爬取了前程无忧4月16日全国发布的约2500条数据分析的职位信息,对数据分析岗位的招聘情况进行简单的分析。整个过程分为五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论
副标题[/!--empirenews.page--]

为了练习Excel技能,以及实践数据分析的流程。我用Web Scraper爬取了前程无忧4月16日全国发布的约2500条数据分析的职位信息,对数据分析岗位的招聘情况进行简单的分析。整个过程分为五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论。

Web Scraper的使用教程可参见宝器之前写的一篇文章:

成都做头发的地方?| 都给我爬爬爬爬爬下来!

01 明确目的

一切数据分析都是以业务为核心目的。本次项目的目的是通过数据分析岗位的招聘信息,包括地区分布、薪资水平、职位要求等,了解最新数据分析岗位的情况。

02 观察数据

“数据分析岗位”招聘情况分析!| Execl版

  • positionName:职位名称
  • link:职位详情页链接
  • companyName:公司名称
  • city:工作城市
  • salary:薪资
  • Releasedate:发布日期
  • companyType:公司类型
  • Field:公司领域
  • conmpanySize:公司规模
  • JD:职位描述
  • address:公司地址
  • companyProfile:公司简介
  • info:招聘信息 (源于爬取的原因包含了公司地点、工作经验、教育要求、招聘人数、发布时间,以|分隔)
  • positionLables:职能类别
  • keyword:职位关键字
  • positionAdvantage:福利

首先看一下哪些字段数据可以去除。link为职位详情页链接,是爬取二级页面需要的;Releasedate是职位发布时间,都为4月16日,这两列可以删除。

JD:职位描述、address:公司地址、companyProfile:公司简介、keyword:职位关键字

虽然JD中的职位描述比info中信息更准确,但此次初级分析不对文本进行挖掘,所以先隐藏。尽量不删除数据,而是隐藏,保证原始数据的完整性,以后可能会用到。

03 清洗数据

检查数据缺失:Excel中可以通过选取该列,在屏幕的右下角查看计数,以此判别有无缺失数据,缺失值很大程度上影响分析结果。如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。

salary、companyType、Field、conmpanySize都存在一小部分的缺失,不影响实际分析。

检查数据是否有脏数据:脏数据包括乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。

数据标准结构:就是将特殊结构的数据进行转换和规整。

我们首先把 city、salary、info拆开。

“数据分析岗位”招聘情况分析!| Execl版

先将salary拆成最高薪水和最低薪水。比较麻烦的是薪水的表示方式有“XX元/天”,“X-X万/年”,“X-X千/月”,“X-X万/月”,还有空白项。

以天结算的可能是兼职,数量很少直接删除。

空白项是因为岗位链接是公司主页,而不是前程无忧的职位详情页,所以没有爬取到。空白项大概占总量的2%,缺失值可以以业务知识或经验推测填充、可以同一指标的计算结果(均值、中位数、众数等)填充、也可以用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定。这里简单采用均值填充。

现在只剩“X-X万/年”,“X-X千/月”,“X-X万/月”三种类型,我打算统一以“X-X千/月”表示。

先用筛选中的“文本筛选”选出所有以“万/年”表示薪资的项

使用分列,以 ‘ - ’ 为分隔符号把salary分为两列,再对最高薪水列使用LEFT和FIND结合,截取单位前的数字

换算一下单位,取小数点后一位,“X-X万/年”就转变为“X-X千/月”了

然后筛选出“X-X万/月”的项,同样分列---> 截取最高薪数字--->换算单位

最后筛选出“X-X千/月”的项,分列---> 截取最高薪数字,但不用换算单位了。最后得到的bottom和top列是公式,用复制-->粘贴为“值”,将公式转化为数值

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读