3 Voies vers votre premier emploi d’analyste de données

Commencez à apprendre

Démarrez votre parcours pour devenir un analyste de données.

Vous voulez devenir un analyste de données ? Félicitations ! Vous avez choisi une carrière lucrative, géographiquement flexible et super sécurisée dans un domaine qui ne va cesser de s’épanouir dans les années à venir. Bien sûr, vous devez faire le travail initial d’apprentissage et de perfectionnement des compétences nécessaires avant de pouvoir en récolter les fruits. Suivez ce guide étape par étape, depuis la base, pour acquérir les outils nécessaires pour devenir un analyste de données ultra-embauchable.

3 Paths to Your First Data Analyst Job

Pour commencer, vous devez savoir quelles sont les compétences requises pour une carrière en analyse de données. Les principaux domaines d’expertise nécessaires sont :

  1. Programmation
  2. Statistiques et mathématiques
  3. Apprentissage automatique
  4. Réorganisation des données
  5. Intuition et résolution de problèmes

Quoi que vous en soyez sur votre chemin vers une carrière dans les données, il semble probablement décourageant de considérer toutes les compétences dont vous avez encore besoin pour être prêt à être recruté. Généralement, les travailleurs des données viennent de trois horizons différents, et le chemin pour devenir un analyste de données dépend de votre origine.

  1. Démarrer sans aucune expérience
  2. Formation solide en programmation
  3. Formation solide en mathématiques

Compte tenu de votre point de départ, quel est votre meilleur chemin vers votre premier emploi en science des données ? Quelles compétences pouvez-vous utiliser pour construire vos bases de la manière la plus efficace et efficiente ?

C’est là que nous intervenons. Il est utile d’examiner chacun de ces trois scénarios – zéro expérience, programmation mais pas de mathématiques, mathématiques mais pas de programmation – en termes de blocs de construction dont vous aurez besoin pour construire votre ensemble de compétences ultimes en matière de données.

Comment devenir un analyste de données sans expérience

Programmation

La programmation fait partie intégrante de l’analyse des données. C’est la compétence de base qui distingue les analystes de données des analystes commerciaux. Vous devrez être capable de bien programmer dans un ou plusieurs langages de programmation – commencez par Python ou R – et d’avoir une bonne maîtrise du paysage des bibliothèques et packages de science des données les plus couramment utilisés (tels que ggplot2, reshape2, numpy, pandas et scipy).

Statistiques

À quoi bon toutes ces prouesses de programmation sans la capacité d’interpréter les données ? Une compréhension des statistiques, notamment des tests statistiques, des distributions et des estimateurs de vraisemblance maximale, est essentielle dans l’analyse des données.

S’initier aux statistiques descriptives et inférentielles. La première fait référence aux mesures quantitatives qui décrivent les propriétés d’un échantillon ; la seconde, aux mesures prédictives qui infèrent les propriétés de la population plus large en interprétant l’échantillon. Vous devrez connaître les bases, dont beaucoup vous sembleront familières au lycée ou à l’université (moyenne, médiane, mode ; écart-type et variance ; tests d’hypothèse), sur lesquelles se grefferont des compétences statistiques plus complexes (différents types de distribution des données : normale standard, exponentielle/poisson, binomiale, chi-deux ; et tests de signification : Test Z, test t, U de Mann-Whitney, chi carré, ANOVA).

Au delà des statistiques descriptives et inférentielles, les analystes de données doivent être adeptes du plan d’expérience statistique. Il s’agit du processus systématique de sélection des paramètres afin de rendre les résultats à la fois valides et significatifs. Par exemple, vous devrez déterminer le nombre d’échantillons à collecter, la manière dont les différents facteurs doivent être imbriqués, la façon de choisir de bons groupes de contrôle et de test, etc. Pour exécuter une conception expérimentale solide à l’aide d’outils tels que le test A/B et de concepts tels que la loi de puissance, la meilleure pratique consiste à utiliser comme baromètre l’idée des « expériences SMART (spécifiques, mesurables, actionnables, réalistes, opportunes) »

Math

Le langage des analystes de données est constitué de chiffres, il s’ensuit donc qu’une base solide en mathématiques est un élément essentiel sur le chemin pour devenir un analyste de données.

À un niveau de base, vous devriez être à l’aise avec l’algèbre du collège. Vous devrez traduire ce que vous connaissiez autrefois comme des « problèmes de mots » (équivalent dans le monde réel : problèmes commerciaux) en expressions mathématiques ; vous devrez être capable de manipuler des expressions algébriques et de résoudre des équations ; et vous devrez être capable de représenter graphiquement différents types de fonctions, avec une compréhension profonde de la relation entre le graphique d’une fonction et son équation.

Au delà de cela, une solide maîtrise du calcul multivariable et de l’algèbre linéaire vous servira en tant qu’analyste de données. Pensez : manipulations matricielles, produit scalaire, valeurs propres et vecteurs propres, et dérivées multivariables.

Apprentissage automatique

Le calcul multivariable et l’algèbre linéaire, ainsi que les statistiques, constituent le fondement de base de l’apprentissage automatique, qui permet aux professionnels des données de faire des prédictions ou des suggestions calculées à partir d’énormes quantités de données. Pour une carrière d’analyste de données, vous n’aurez pas besoin d’inventer de nouveaux algorithmes d’apprentissage automatique (des compétences avancées de ce type vous qualifient pour devenir un scientifique des données), mais vous devez connaître les plus courants d’entre eux. Parmi les exemples, on peut citer l’analyse en composantes principales, les réseaux neuronaux, les machines à vecteurs de support et le clustering k-means. Notez que vous n’aurez peut-être pas besoin de connaître la théorie et les détails de mise en œuvre derrière ces algorithmes, mais vous devriez comprendre les avantages et les inconvénients, ainsi que le moment où il faut (ou non) les appliquer à un ensemble de données.

Il existe trois principaux types d’apprentissage automatique que les analystes de données doivent connaître : l’apprentissage supervisé, l’apprentissage non supervisé et l’apprentissage par renforcement.

Dans l’apprentissage supervisé, l' » apprenant  » (programme informatique) dispose de deux ensembles de données, un ensemble d’apprentissage et un ensemble de test. L’ordinateur « apprend » à partir d’un ensemble d’exemples étiquetés dans l’ensemble d’apprentissage de manière à pouvoir identifier avec précision des exemples non étiquetés dans l’ensemble de test. L’objectif est que l’apprenant développe une règle capable d’identifier les éléments de l’ensemble de test. C’est l’apprentissage supervisé qui permet à votre téléphone de reconnaître votre voix et à votre courrier électronique de filtrer le spam. Les outils spécifiques que vous utiliserez comprennent :

  • les arbres de décision
  • la classification Naive Bayes
  • la régression des moindres carrés ordinaires
  • la régression logistique
  • les réseaux neuronaux
  • les machines à vecteurs de support
  • et les méthodes d’ensemble.

L’apprentissage non supervisé est celui que vous utiliserez lorsque vous serez confronté au défi de découvrir des relations implicites, et donc une structure cachée, dans un ensemble de données  » non étiquetées  » donné. L’apprentissage non supervisé permet à Netflix de vous recommander des films que vous aimerez et à Amazon de prédire les produits que vous aimerez. Les outils spécifiques que vous utiliserez comprennent :

  • des algorithmes de regroupement
  • l’analyse en composantes principales (ACP)
  • la décomposition en valeurs singulières (DVS)
  • et l’analyse en composantes indépendantes (ACI).

Enfin, l’apprentissage par renforcement s’applique aux situations qui se situent entre les deux extrêmes, supervisé et non supervisé, c’est-à-dire, lorsqu’il existe une certaine forme de rétroaction disponible pour chaque étape ou action prédictive, mais pas d’étiquette précise ou de mesure d’erreur. Vous pouvez appliquer l’apprentissage par renforcement lorsque vous souhaitez déterminer comment maximiser les récompenses, par exemple dans des domaines tels que le contrôle des robots, les échecs, le backgammon, les dames et d’autres activités qu’un agent logiciel peut apprendre. Les outils spécifiques que vous utiliserez comprennent :

  • Q-Learning
  • TD-Learning
  • et les algorithmes génétiques.

Data wrangling

Toujours avec nous ? Les trois dernières capacités cruciales pour votre développement en tant qu’analyste de données concernent la manipulation, l’affichage et l’interprétation des données. Pour transformer la matière première en un ensemble de données utiles et organisées, le traitement des données (également appelé « broyage des données ») entre en jeu. Il s’agit du processus de collecte et de nettoyage des données afin qu’elles puissent être facilement explorées et analysées.

Vous devrez vous équiper de connaissances sur les systèmes de bases de données (à la fois basés sur SQL et sur NoSQL) qui agissent comme un hub central pour stocker les informations. Il sera utile de connaître les bases de données relationnelles telles que PostgreSQL, mySQL, Netezza et Oracle, ainsi que Hadoop, Spark et MongoDB.

Les autres concepts et outils essentiels au traitement des données comprennent les expressions régulières, les transformations mathématiques et la bibliothèque Python String pour les manipulations de chaînes de caractères. Vous devrez également savoir comment analyser les formats de fichiers courants tels que les fichiers csv et xml et comment convertir une distribution non normale en normale avec une transformation log-10.

Tout cela peut sembler écrasant pour le moment, surtout si vous êtes tout nouveau non seulement dans les compétences impliquées, mais aussi dans certains des termes eux-mêmes. N’oubliez pas que toutes ces compétences sont empilables : chacune que vous maîtriserez vous aidera à construire la suivante, et celle d’après, jusqu’à ce que vous soyez un analyste de données entièrement équipé, prêt à botter des fesses et à prendre des noms.

Visualisation des données

Une fois que vous avez nettoyé, organisé, rangé, plié et interprété les données, vous voulez être capable d’illustrer vos résultats visuellement afin que les parties prenantes, y compris les analphabètes des données, puissent parfaitement comprendre. Vous n’obtiendrez aucun crédit pour vos talents d’analyseur de données si vous ne communiquez pas vos idées de manière claire et efficace.

Il sera utile de connaître les outils de visualisation de données comme ggplot, matplotlib, sea born et D3.js. Bien sûr, il est essentiel de connaître non seulement les outils nécessaires pour afficher réellement les données visuellement, mais aussi les principes qui sous-tendent l’encodage visuel de ces données. À savoir, vous devrez comprendre intimement le contexte de la situation de l’entreprise afin de déterminer comment situer votre visualisation de données pour être le plus pertinent possible.

Intuition des données et résolution de problèmes

Soutenu par les connaissances techniques des compétences combinées ci-dessus, vous devez savoir comment penser, comment poser les bonnes questions. Vous pourriez passer le reste de votre vie à analyser un seul ensemble de données et à visualiser votre interprétation dans une multitude de formats avec une pléthore de résultats. En réalité, vous ne disposerez jamais que d’un temps et d’un espace limités pour répondre aux questions de vos associés dans l’analyse des données en cours. Par conséquent, il est important de nourrir une intuition sur les éléments importants et ceux qui ne le sont pas.

Travaillez à développer une compréhension approfondie du domaine dans lequel vous travaillez, qu’il s’agisse du marché boursier ou des biens de consommation emballés. Investissez le temps de travailler sur autant d’ensembles de données que possible, par exemple en participant à des concours Kaggle, pour apprendre à éviter les impasses. Apprenez à sentir la « question derrière la question » dans les missions, en creusant, en d’autres termes, pour découvrir les problèmes commerciaux exacts qui motivent la nécessité d’analyser les données.

Comment devenir un analyste de données en s’appuyant sur une formation en programmation

Une partie, ou une grande partie, de cet aperçu du contenu vous semble-t-elle familière ? Vous avez reçu une formation d’ingénieur logiciel, ou peut-être avez-vous étudié la programmation à l’université, mais il vous manque pourtant les solides bases mathématiques nécessaires pour devenir un analyste de données ?

Pas de panique. Vous êtes en excellente position pour lancer un parcours d’apprentissage, à l’aboutissement duquel vous serez situé pour une réussite maximale en matière d’analyse de données.

La programmation fait partie intégrante de l’analyse de données.

Voici ce que vous devrez apprendre ensuite, dans l’ordre, sur la voie qui vous mènera à cliquer sur  » postuler  » à une offre d’emploi d’analyste de données.

Les sujets fondamentaux

  • Les statistiques : Vous devrez être capable d’interpréter, de faire des déductions et de comparer rigoureusement différents types de données en appliquant la bonne approche, technique ou tests statistiques à différents types de distributions. Consultez la répartition ci-dessus pour connaître les outils et les compétences spécifiques.
  • Probabilité : Afin de tirer des conclusions précises, les analystes de données doivent être en mesure de raisonner sur la probabilité qu’un événement ait pu se produire ou qu’il se produise. Consultez la répartition ci-dessus pour connaître les outils et les compétences spécifiques.

Thèmes avancés

  • Calcul multivariable/algèbre linéaire : Ces compétences mathématiques avancées sont moins importantes à connaître que les statistiques et les probabilités, mais seront certainement utiles si vous voulez comprendre comment l’apprentissage automatique fonctionne réellement. En outre, si vous envisagez de vouloir tirer parti de vos aptitudes d’analyste de données pour faire carrière en tant que scientifique des données à un moment donné, le calcul multivariable et l’algèbre linéaire vous fourniront les connaissances fondamentales pour construire vos propres algorithmes.

Comment devenir un analyste de données en s’appuyant sur une base mathématique

OK, alors peut-être que vous êtes un as des mathématiques, mais que vous n’avez aucune connaissance en programmation. Voici un guide étape par étape pour acquérir ces connaissances en programmation qui sont si cruciales pour devenir un analyste de données.

Sujets fondamentaux

  • Variables, flux de contrôle, boucles, fonctions : Ce sont les éléments de base de la programmation. Connaissez-les et aimez-les.
  • Débogage : Votre code ne fonctionnera probablement pas correctement du premier coup, ou pourrait se briser lorsque des situations inattendues se produisent. Lorsque cela se produit, vous devrez être capable de comprendre quel est le problème et pourquoi il se produit. C’est là que les compétences de débogage seront utiles.
  • Programmation orientée objet : Apprenez à structurer votre code en modèles de conception orientés objet, afin qu’il puisse être facilement réutilisé, testé et partagé avec d’autres personnes.

Thèmes avancés

  • Structures de données : Pour un crédit supplémentaire, familiarisez-vous avec les piles, les files d’attente, les listes, les tableaux, les hashmaps, les files d’attente prioritaires, les essais et les graphiques. Dans certaines situations, une structure de données sera supérieure aux autres (en termes d’utilisation de la mémoire et d’efficacité d’exécution). Si vous comprenez ces relations, vous pourrez optimiser votre programme pour qu’il s’exécute plus rapidement et plus efficacement. Cela impressionnera votre équipe, et vous distinguera des autres professionnels des données.
  • Algorithmes : Savoir quel algorithme appliquer dans quelle situation peut réduire le temps d’exécution de votre programme de quelques jours à quelques heures, ou le besoin en mémoire de quelques gigaoctets à quelques centaines de mégaoctets. Travaillez à la compréhension des algorithmes de type diviser pour régner (D&C), des algorithmes gourmands, de la programmation dynamique, de la programmation linéaire et des algorithmes de graphes (profondeur vs largeur vs traversée, arbres à portée minimale et plus court chemin entre deux nœuds).
  • Modèles de conception logicielle : Vous voulez rendre votre code robuste, réutilisable et testable ? De nombreux ingénieurs logiciels et informaticiens pionniers ont développé des patrons de conception logicielle pour vous aider à le faire. Devenez à l’aise avec eux afin d’exceller dans votre analyse de données.

The Bottom Line

L’analyse de données est un domaine en pleine expansion, et il y a beaucoup de voix qui partagent ce que vous devez apprendre, dans quel ordre. La variété des informations peut être déroutante, accablante et décourageante.

Sachez que vous pouvez compter sur cette ventilation comme le guide définitif de ce que vous devez vraiment apprendre pour décrocher ce premier emploi d’analyste de données, ainsi que des prescriptions pour savoir par où commencer, en fonction de vos antécédents spécifiques.

L’investissement dans une carrière d’analyste de données est énorme, peu importe si vous débutez ou si vous élargissez vos capacités existantes. Mais le gain, nous vous le promettons, est encore plus important.

Vous voulez en savoir plus ? Consultez le programme Udacity Data Analyst Nanodegree pour démarrer votre carrière en tant qu’analyste de données.

Commencez à apprendre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *