HyperAI

Le Rapport Annuel De Kaggle Est Sorti : Les Data Scientists Sont Jeunes Et Riches, Avec Des Salaires Approchant Le Million

il y a 4 ans
Nouvelles des grandes usines
Titres
神经小兮
特色图像

L'année 2020 touche progressivement à sa fin et Kaggle a publié son rapport d'enquête annuel « Machine Learning and Data Science 2020 », nous montrant le portrait de groupe des data scientists actuels.

Kaggle, une plateforme de concours d'analyse de données, a récemment mené une enquête auprès des utilisateurs de la plateforme, couvrant plusieurs dimensions telles que les informations de base des praticiens, les niveaux de salaire et l'expérience professionnelle.

Après avoir nettoyé les données des commentaires de 20 036 utilisateurs de Kaggle, Kaggle a finalement compilé ce rapport pour 13% (2 675) répondants. Ces répondants sont tous actuellement employés en tant que scientifiques des données ou à d’autres postes soutenant la science des données et l’apprentissage automatique.

Il a fallu un mois à Kaggle pour terminer ce rapport d'enquête

Actuellement, le dernier rapport d’enquête a été publié. À partir de ce rapport, nous pouvons obtenir un aperçu du paysage actuel des praticiens de l'apprentissage automatique et de la science des données, ainsi que de l'état de l'emploi et des investissements en capital des entreprises concernées dans ce domaine, et avoir un aperçu des dernières tendances de développement dans l'industrie.

Remarque : Dans cette enquête, il n’y a pas de données sur les data scientists chinois. Après des recherches, Super Neuro a découvert que Kaggle avait une règle dans les règles de participation à l'enquête qui se lit comme suit :

Pour être éligible aux prix de cette enquête, vous devez :

18 ans ou plus ou avoir l’âge de citoyenneté du pays dans lequel vous vous trouvez ;

Je ne suis pas ressortissant d’Arménie, de Cuba, d’Iran, de Syrie, de Corée du Nord ou du Soudan ;

Ne représente pas une personne ou une entité soumise aux contrôles ou sanctions à l’exportation des États-Unis.

Il est clairement indiqué que les pays, les représentants des entités et les individus susmentionnés ne sont pas éligibles au prix.

Depuis 2018, les États-Unis ont inclus plus de 200 entreprises chinoises et 13 universités dans la « liste des entités » soumises au contrôle des exportations ou aux sanctions. Nous avons compilé la liste de ces universités et de certaines entreprises dans les domaines de la technologie et de l'intelligence artificielle comme suit :

entreprise

Centre de recherche en sciences informatiques de Pékin, Centre de cloud computing de Pékin, SMIC, Dahua Technology, Hikvision, iFlytek, Megvii Technology, SenseTime, Yitu Technology, CloudWalk Technology, Intellifusion Technologies Co., Ltd., NetPosa Technology Co., Ltd., Beijing CloudMinds, Qihoo 360 Technology Co., Ltd., Xiamen Meiya Pico Information Co., Ltd., Yixin Technology, 38 filiales de Huawei, le 30e Institut de China Electronics Technology Group Corporation, le 7e Institut de China Electronics Technology Group Corporation et le Wuxi Jiangnan Institute of Computing Technology.

Collèges et universités

Université d'aéronautique et d'astronautique de Pékin, Université Renmin de Chine, Université nationale de technologie de défense, Université du Hunan, Institut de technologie de Harbin, Université d'ingénierie de Harbin, Université polytechnique du Nord-Ouest, Université Jiaotong de Xi'an, Université des sciences et technologies électroniques de Chine, Université du Sichuan, Université de Tongji, Université de technologie du Guangdong et Université de Nanchang.

En d’autres termes, tant que votre école ou votre entreprise figure sur la liste des entités, vous pouvez remplir le questionnaire, mais vous ne pouvez pas participer à l’évaluation du prix. Bien qu'il n'y ait pas eu de vérification des antécédents ni de déclaration supplémentaire, Kaggle a spécifiquement et expressément refusé la participation de nombreux Chinois.

Rapport version concise : Portrait de groupe des data scientists

Répartition par sexe, âge et niveau d'éducation 

  • Il y a plus d’hommes que de femmes qui travaillent dans ce domaine, avec un ratio hommes/femmes d’environ 5:1.
  • 35 ans est un tournant, la plupart des répondants ont moins de 35 ans
  • Plus de la moitié des répondants sont titulaires d'un diplôme de troisième cycle

Éducation et expérience professionnelle 

  • La plupart des scientifiques des données continuent d’apprendre de nouvelles technologies après l’obtention de leur diplôme
  • La plupart des data scientists programment depuis moins de 10 ans
  • Plus de la moitié des data scientists ont moins de trois ans d'expérience en apprentissage automatique
  • Les scientifiques des données vivant aux États-Unis gagnent beaucoup plus que leurs homologues d’autres pays.

Enquêtes liées à la technologie 

  • Les data scientists sont plus nombreux à utiliser le cloud computing qu'en 2019
  • Scikit-Learn est l'outil d'apprentissage automatique le plus utilisé, utilisé par 4/5 des data scientists
  • Tableau et PowerBI sont les outils de business intelligence les plus populaires

Majoritairement masculin, avec un master par habitant, l'Inde domine la liste

Sexe : Plus de 80 % sont des hommes 

Il existe encore un énorme déséquilibre entre les sexes parmi les scientifiques des données, avec plus de 80 % d’hommes.

L'enquête de l'année dernière a montré que 84% étaient des hommes, et cette année, la proportion a très peu changé

Âge : Un grand nombre de personnes nées après 1995 ont rejoint 

Les data scientists ont généralement entre 20 et 30 ans, et sont âgés de 22 à 34 ans.Seul un data scientist professionnel sur cinq a plus de 40 ans.

Les data scientists ont entre 25 et 34 ans

Certains signes montrent que les data scientists deviennent plus jeunes à mesure que la « génération Z » s’implique davantage, avec près de 71 data scientists de TP3T désormais âgés de 18 à 21 ans.

Il s’agit d’une augmentation par rapport au 5% de l’année dernière, il est donc prévisible que ce groupe deviendra de plus en plus jeune à l’avenir.

Pays : L'Inde et les États-Unis sont en tête de liste 

Parmi les data scientists qui ont participé à l'enquête annuelle de Kaggle, les data scientists indiens représentaient 22%, tandis que les États-Unis représentaient 14,5%, tous deux dépassant de loin le Brésil, qui se classait troisième (moins de 5%).

Le rapport n'inclut pas explicitement la Chine en raison de divers facteurs, mais le nombre d'Autres classés troisième n'est pas faible, peut-être parce qu'il est destiné à inclure les utilisateurs chinois dans les résultats statistiques valides.

L’Inde et les États-Unis ont un net avantage en termes de nombre de data scientists

Éducation : Un diplôme d'études supérieures est la norme 

L’enquête montre que, comme les années précédentes, un diplôme d’études supérieures reste la norme pour les data scientists.Plus de 681 data scientists de TP3T sont titulaires d’un master ou d’un doctorat.Moins de 51 scientifiques de données de TP3T n’ont pas de formation supérieure au lycée.

Plus de la moitié des data scientists sont titulaires d'un master

  Plateformes d'apprentissage : Coursera et Udemy sont les plus couramment utilisées 

La science des données et l’apprentissage automatique évoluent rapidement, de sorte que plus de 90 % des personnes interrogées continueront d’apprendre. Parmi eux, environ 301 TP3T ont choisi des cours d’enseignement supérieur traditionnels, tandis que beaucoup d’autres ont étudié via des ressources en ligne.

Dans cette enquête,Coursera, Udemy et Kaggle Learn sont les plateformes d’apprentissage les plus courantes.

De nombreuses personnes apprennent sur plusieurs plateformes,L’enquête montre qu’ils choisissent 2,8 plateformes par personne.

Expérience en programmation : La plupart ont de nombreuses années d’expérience en programmation 

Parmi les répondants,La plupart des scientifiques des données ont au moins quelques années d’expérience en programmation.En fait, plus de 81 scientifiques de données de TP3T ont commencé à programmer au cours du siècle dernier, c'est-à-dire il y a au moins 20 ans. Moins de 21 scientifiques de données TP3T affirment n'avoir jamais écrit de code.

À l’échelle mondiale, les scientifiques américains des données ont beaucoup plus d’expérience en programmation. Aux États-Unis, 371 personnes TP3T sont engagées dans la programmation depuis plus de 10 ans, alors qu'à l'échelle mondiale, cette proportion n'est que de 221 TP3T.

L'expérience en programmation est importante pour les data scientists

Expérience en apprentissage automatique : la plupart sont nouveaux dans le domaine de l'apprentissage automatique 

Parmi les répondants,La plupart des scientifiques des données sont novices en matière d’apprentissage automatique.Moins de 6% de data scientists professionnels utilisent l’apprentissage automatique depuis 10 ans ou plus.

Plus de la moitié des data scientists,Moins de trois ans d'expérience en apprentissage automatique

Niveau de salaire : Le plus compétitif des États-Unis 

Les scientifiques des données gagnent un salaire très compétitif.Aux États-Unis, les scientifiques des données ont les salaires les plus élevés, en moyenne entre 120 000 et 150 000 dollars (environ 780 000 à 980 000 RMB).

Bien que l’Inde compte un grand nombre de scientifiques des données, leurs revenus ne sont pas élevés. Près de 901 scientifiques de données indiens gagnent moins de 50 000 $ par an, se classant seulement au sixième rang du classement mondial des salaires des scientifiques de données.

Salaire médian des data scientists dans le monde

Quels environnements de développement intégrés utilisent-ils ?

Le rapport montre que JupyterLab IDE reste l'outil de choix pour les data scientists, avec environ les trois quarts des data scientists l'utilisant.Cependant, ce chiffre est en baisse par rapport aux 83% de l'année dernière. Visual Studio Code s'est classé deuxième, juste devant 33%.

  Quels frameworks d’apprentissage automatique utilisent-ils ?

Les bibliothèques d’apprentissage automatique basées sur Python dominent toujours. dans,Scikit-learn est une super arme qui fonctionne pour la plupart des projets et se classe n°1, avec 4 scientifiques de données sur 5 qui l'utilisent.

Dans l'enquête, TensorFlow et Keras sont utilisés respectivement par les data scientists de 50%.

Parmi eux, Xgboost créé par le Dr Chen Tianqi en Chine se classe quatrième.

Le poste de data scientist est devenu très recherché. Voulez-vous le rejoindre ?

Depuis 2016, Kaggle mène chaque année une telle enquête, nous permettant d'avoir un portrait tridimensionnel plus clair des praticiens de l'apprentissage automatique et de la science des données, ainsi que des tendances de développement dans ce domaine.

À l’ère du big data, la demande en data scientists a explosé. Dans le même temps, de larges perspectives de développement et des salaires généreux font également des scientifiques des données une carrière de rêve pour de nombreuses personnes.

Selon Google Trends, au cours de la dernière décennie,L’intérêt pour les rôles de data scientist augmente

Cependant, d'après le rapport d'enquête de Kaggle, nous pouvons constater que la profession de data scientist est devenue de plus en plus jeune et que leur niveau d'éducation est devenu de plus en plus élevé. Par conséquent, si vous souhaitez rejoindre cette piste, vous serez confronté à une concurrence considérable.

Rapport Kaggle :

https://storage.googleapis.com/kaggle-media/surveys/Kaggle%20State%20of%20Machine%20Learning%20and%20Data%20Science%202020.pdf

-- sur--