Kaggle 年度报告出炉:数据科学家年轻多金,薪资近百万

2020 年已经逐渐接近尾声,kaggle 发布了其年度调查报告《机器学习与数据科学 2020》,向我们展示了当前数据科学家的群体画像。

数据分析竞赛平台 kaggle,近期针对平台用户进行了一项调查,涉及从业者基本信息、薪资水平、工作经验等多个维度。

对 20,036 名 Kaggle 用户的反馈进行数据清洗后,kaggle 最终针对 13%(2675 名) 的受访者编制了这份报告。这些受访者都是在职的数据科学家,或其他支持数据科学和机器学习的职位。

kaggle 历时一个月,完成了此项调查报告

目前,最近调查报告已出炉。从这个报告中,我们可一览当前机器学习与数据科学从业者的全貌,以及相关企业在这方面的人员雇佣、资金投入状况等,一窥该行业最新发展趋势。

注:在本次调查中,并未出现中国的数据科学家相关数据,超神经经过研究发现,kaggle 在调查问卷的参与规则中,有一条写道:

若想获得该问卷调查所设奖项,您必须满足:

18 岁以上或所在国规定的公民年龄;

本人不是亚美尼亚、古巴、伊朗叙利亚、朝鲜、苏丹国民;

不是受美国出口管制或制裁的个人或实体的代表。

明确指出以上国家、实体代表及个人没有评奖资格

自 2018 年至今,美国已将 200 多家中国企业以及 13 所高校,列入出口管制或制裁的「实体清单」,我们将这些高校名单,以及部分科技、人工智能领域企业名单整理如下:

企业

北京计算科学研究中心、北京云计算中心、中芯国际、大华科技、海康威视、科大讯飞、旷视科技、商汤科技、依图科技、云从科技、云天励飞技术有限公司、东方网力科技有限公司、北京达闼科技(CloudMinds)、奇虎 360 科技有限公司、厦门美亚柏科信息有限公司、颐信科技、华为 38 家子公司、中国电子科技集团公司第三十研究所、中国电子科技集团公司第七研究所、无锡江南计算技术研究所。

高校

北京航空航天大学、中国人民大学、国防科技大学、湖南大学、哈尔滨工业大学、哈尔滨工程大学、西北工业大学、西安交通大学、电子科技大学、四川大学、同济大学、广东工业大学、南昌大学。

也就是说,只要你所在的学校、公司上了实体清单,问卷可以填,但是不能参与奖项的评审。虽然没有进一步的背景调查和声明,但 Kaggle 的确指名道姓地婉拒了不少国人参与。

报告精炼版:数据科学 er 的群体画像

性别、年龄与学历分布 

  • 该领域从业人员男多女少,男女比例约为 5:1
  • 35 岁是个分水岭,大部分受访者小于 35 岁
  • 一半以上的受访者拥有研究生学位

教育背景和工作经验 

  • 大多数数据科学家走出校门后,仍坚持学习新技术
  • 大多数数据科学家编程时间少于 10 年
  • 一半以上的数据科学家,拥有机器学习的经验不足三年
  • 居住美国的数据科学家的工作薪水,明显比其他国家同行更多

技术相关调查 

  • 相比 2019 年,使用云计算的数据科学家更多了
  • Scikit-Learn  是使用最多的机器学习工具,有 4/5 的数据科学家在用
  • Tableau 和 PowerBI 是最流行的商业智能工具

男性为主,人均硕士,印度霸榜

性别:超八成为男性 

数据科学家从业者仍然存在巨大的性别比例失衡,超过八成都是男性。

去年调查显示,84% 为男性,今年这一比例变化极小

年龄:95 后大军已加入 

数据科学家的年龄一般在 20 岁左右或 30 岁出头,约 60% 在 22 岁至 34 岁之间。只有五分之一的专业数据科学家年龄在 40 岁以上。

数据科学家年龄集中在 25 – 34 岁之间

有迹象表明,随着「Z 世代」(指大约 1995-2005 年之间出生的一代)更多地参与其中,数据科学家年龄越来越小,目前已有近 7% 的数据科学家年龄在 18-21 岁之间。

与去年的 5% 相比有所增长,因此,可以预见的是,未来这一群体将会越来越年轻。

所在国家:印度和美国霸榜前两位 

在参与此次 Kaggle 年度调查的数据科学家中,印度的数据科学家占 22%,而美国的占 14.5%,两者远远超过第三位的巴西(低于 5%)。

报告因为各项因素,并未将中国明确列入,但排名第三的 Other 的数量不低,也许是为纳入有效统计结果的中国用户。

印度和美国从事数据科学家的人数优势明显

受教育程度:研究生学位是标准 

调查显示,与往年一样,研究生学位仍然是数据科学家的标准,超过 68% 的数据科学家拥有硕士或博士学位。只有不到 5% 的数据科学家没有高中以上学历。

超过半数的数据科学家都拥有硕士学位

  学习平台:Coursera 和 Udemy 最常用 

数据科学和机器学习正在迅速改变,所以受访者中,超九成仍会继续保持学习。其中,大约 30% 的人选择了传统的高等教育课程,更多的人则通过在线资源学习。

在本次调查中,Coursera、Udemy 和 Kaggle Learn 是最常见的学习平台。

很多人不止在一个平台上学习调查显示他们人均会选择 2.8 个平台

编程经验:绝大多数有多年编程经验 

受访者中,大多数数据科学家都至少有几年的编程经验。甚至,超过 8% 的数据科学家从上个世纪,也就是至少 20 年前,就开始编程了。只有不到 2% 的数据科学家声称从来没有写过代码。

从全球来看,美国数据科学家的编程经验要丰富得多。在美国,37%  的人从事编程工作 10 年以上,而全球的话,这个比例只有 22%。

编程经验对于数据科学家来说较为重要

机器学习经验:大多数为机器学习新手 

受访者中,大多数的数据科学家在机器学习方面都是新手。只有不到 6% 的专业数据科学家已经使用机器学习 10 年或更久。

大约超过半数的数据科学家机器学习方面经验少于三年

薪资水平:美国最具竞争力 

数据科学家收入相当有竞争力,而美国数据科学家薪资最高,平均达 12 万 – 15 万美元(约合人民币 78 万 – 98 万元)。

而印度虽然数据科学家数量多,但是收入却并不高,近 90% 的印度数据科学家每年的收入不到 5 万美元,仅仅排在全球数据科学家薪资排行榜第六位。

全球各国数据科学家薪资中位数

他们都用什么集成开发环境?

报告显示,JupyterLab IDE 仍然是数据科学家的首选工具,大约有四分之三的数据科学家使用它。不过,这一数字比去年的 83% 有所下降。Visual Studio 代码排名第二,仅略高于 33%。

  他们都用什么机器学习框架?

基于 Python 的机器学习库仍居主导地位。其中,Scikit-learn 是一款适用于大多数项目的超级武器,排名第一,有五分之四的数据科学家在使用它。

调查中,TensorFlow 和 Keras,则分别有 50% 的数据科学家在使用。

其中,国内陈天奇博士打造的 Xgboost 排名第四

数据科学家成热门职位,你也要加入吗?

从 2016 年起,kaggle 每年都会进行这样一次调查,让我们能够更清晰地看到机器学习与数据科学从业者的立体画像,以及这一领域的发展趋势。

在大数据时代,企业对数据科学家这一岗位的需求爆发式增长。同时,广阔的发展前景和丰厚的薪酬,也使得数据科学家成为很多人的梦想职业。

根据 Google Trends 显示,在过去近十年人们对数据科学家这一职位兴趣猛增

不过,从 kaggle 的调查报告中,我们看到,数据科学家这一职业已经越来越年轻化,他们受教育程度也越来越高。因此,要想加入这一赛道,所面临的竞争也是不小的。

kaggle 报告:

—— 完 ——