1. 分析目标
既然以从事数据工作为核心目的,首先要过的一道坎,就是求职,所以你我关心以下几个问题:
1)作为一个零基础的人,如何获得一份真正入门的数据分析工作?
2)经过一段时间的学习之后,我们能获得什么样的一份数据分析工作?
3)数据分析的工作到底能提供怎样的报酬?
4)不同层次的工作者需求什么样的技能?
这类求职者,或者说转职者最关注的问题,是本次课题想要去了解的方向,而了解这些需求最直接便利的就是先从各大公司的招聘信息进行入手分析。
2. 数据来源和数据集
本次分析选择了从智联招聘网站进行爬取数据。为什么选择智联招聘网站呢?
因为和其他的招聘网站相比,我考虑的是该网站发布的信息相对门槛更低,所以收集到的数据也会更多,范围也更广。这样更能体现大环境下数据岗位的整体需求和职业形象。
当然,如果可以多爬一些网站,得到的数据肯定会更全面,更有对比,但是因为这个当初也是工作之余完成的。所以也是能省则省。
在样本的选择上,我爬取的数据为智联招聘网站中“上海”范围内,以“数据”为关键词搜索到的职业招聘信息。因为笔我目前生活在上海,房租也交了一年的,而且还剩9个月,所以地区筛选一直都是默认勾取“上海”的。
而当初这个课题最主要的目的也是想自己用,所以也没觉得哪里不好。但是现在想想,如果最开始把眼光放大一点可能收获的会更多。
本次实践共爬取了2297条数据,信息包括:“职位名称”,“公司名称”,“福利标签”,“薪资范围”,“工作地点”,“发布时间”,“全职/兼职”,“工作年限”,“最低学历”,“职位标签以及“职位描述”。
3.数据分析技术
爬虫部分采用了爬虫插件[Gooseeker],很容易上手但是也确实遇到了麻烦。因为目前主要在学习R语言,所以数据分析部分采用的工具也为R。
使用的R包包含了平时练习最常使用的:
数据分析包dplyr
绘图包ggplot2
文本分析包jiebar
词云成图包wordcloud2
4.数据分析结果
1)工作年限和薪资的分析
可以看出在工作年限上来说,经验不限和经验1-3年是市场需求的主力,也就是说这个岗位目前而言,入职门槛并不算高。那么工作年限真的就没有意义了么?
为了进一步分析工作年限和薪资的关系,我绘制了箱线图来看下数据的整体分布情况。
从下图中可以看出随着年份上升,薪资待遇的上升也是非常明显的,尤其是3-5年这一段,提升的跨度非常之大。而3年以下,大家竞争的反而是另外一个基准线。个人判断,这个岗位对学习型人才需求非常大,比较缺中层小头目。
2)数据分析指标起薪分析
由于我自己是一个0起点转职者,而且项目本身就是为了我和我这种人准备的,所以我们不需要去观察和分析全部的数据,只需要看我关心的数据分析职位起薪就好了。
这里观察到有相当多的职位分布在了起薪4000以及4000以下,之外就是以起薪在4000-6000,6000-8000,8000-12000这3个起薪段为集中区域。
经过观察,4000以下的基本都是数据录入的工作……所以,所以跳过。这年头谁还不是个打字员了。
删除4000以下薪水的数据,继续对数据进行细分得到下面的图。
经过分组和观察,大概可以了解到,如果是4000起薪的职位呢,差不多6000也就到头了。如果是6000起薪的职位呢,大多数还是有可能在6000-8000里面找一个平衡点的,运气好再多一点也不是没可能。
而真正到8000起薪的时候,事情就会发生变化从8000到15000都是可以争取的,有很多的空间,而这个时候甚至可以去观望一狗的收入了。
而这个还只是3年以下数据类工作的收入。所以,对专职者来说,重要的是怎么去拿到那个不同细分梯度的入职门槛。
3)数据分析职位分析
以最低薪资为基准的前提下,6000以下基本还是和数据管理打交道,6000-8000档开始真正的接触数据分析了。工作内容也会开始贴近我们所预想的内容,而8000-12000这个阶段开始出现很多的专业内容和细分领域,目前来说,互联网和软件相关依然是主力,再往上就是管理,技术深耕职业分支了,不需要多说。
最后,做几个词云玩玩。沟通,统计,模型,产品这些词条在词云中出现的频次相当多,我猜测,很多时候数据工作会涉及到相当多的表达和输出,这不是一个埋头的工作,转化能力应该是工作中的一个重点。
5. 数据分析总结
1)低薪的数据岗位工作内容主要以数据录入和数据管理为主,高薪的岗位开始涉及到分析和开发,这是一个非常明显的技能分割线。
2)5年是数据从业者一个重要的年限数字,如果可以顺利成长,有非常大的化龙空间。
3)互联网行业依然是数据岗位需求的主体,其中开发占据很大的比重,分析相对较少。