3 percorsi per il tuo primo lavoro da analista di dati

Inizia ad imparare

Inizia il tuo viaggio per diventare un analista di dati.

Vuoi diventare un analista di dati? Congratulazioni! Hai scelto una carriera redditizia, geograficamente flessibile e super sicura in un campo che continuerà a fiorire negli anni a venire. Naturalmente, devi fare il lavoro iniziale per imparare e affinare le competenze necessarie prima di poterne raccogliere i frutti. Segui questa guida, passo dopo passo, per acquisire gli strumenti necessari a diventare un analista di dati ultra-assumibile.

3 Percorsi verso il tuo primo lavoro da analista di dati

Per iniziare, è necessario sapere quali sono le competenze richieste per una carriera in data analytics. Le principali aree di competenza necessarie sono:

  1. Programmazione
  2. Statistica e matematica
  3. Machine Learning
  4. Data Wrangling
  5. Intuizione e problem solving

Non importa a che punto sei nel tuo percorso verso una carriera nei dati, probabilmente sembra scoraggiante considerare tutte le competenze di cui hai ancora bisogno per essere pronto per il reclutamento. In genere, i lavoratori dei dati provengono da tre diversi background, e il percorso per diventare un analista di dati dipende da dove si proviene.

  1. Inizio senza esperienza
  2. Fondo di programmazione forte
  3. Fondo matematico forte

Visto il tuo punto di partenza, qual è il tuo percorso migliore per il tuo primo lavoro nella scienza dei dati? Quali competenze puoi usare per costruire le tue basi nel modo più efficiente ed efficace?

Ecco dove entriamo in gioco noi. È utile esaminare ciascuno di questi tre scenari – zero esperienza, programmazione ma niente matematica, matematica ma niente programmazione – in termini di blocchi di costruzione di cui avrai bisogno per costruire il tuo ultimo set di competenze sui dati.

Come diventare analista di dati senza esperienza

Programmazione

La programmazione è un aspetto integrale dell’analisi dei dati. È l’abilità principale che distingue gli analisti di dati dagli analisti di business. Dovrai essere in grado di programmare bene in uno o più linguaggi di programmazione – inizia con Python o R – e avere una buona conoscenza del panorama delle librerie e dei pacchetti di data science più comunemente usati (come ggplot2, reshape2, numpy, pandas e scipy).

Statistica

A cosa serve tutta questa abilità di programmazione senza la capacità di interpretare i dati? Una comprensione della statistica, inclusi i test statistici, le distribuzioni e gli stimatori di massima verosimiglianza, è essenziale nell’analisi dei dati.

Conoscete sia la statistica descrittiva che quella inferenziale. La prima si riferisce a misure quantitative che descrivono le proprietà di un campione; la seconda, a misure predittive che deducono proprietà della popolazione più ampia interpretando il campione. Avrete bisogno di conoscere le basi, molte delle quali vi suoneranno familiari dal liceo o dall’università (media, mediana, modalità; deviazione standard e varianza; test di ipotesi), sulle quali stratificherete anche competenze statistiche più complesse (diversi tipi di distribuzione dei dati: normale standard, esponenziale/poisson, binomiale, chi-quadro; e test di significatività: Z-test, t-test, Mann-Whitney U, chi-quadrato, ANOVA).

Oltre alle statistiche descrittive e inferenziali, gli analisti di dati devono essere abili nel disegno statistico sperimentale. Questo è il processo sistematico di selezione dei parametri per rendere i risultati validi e significativi. Per esempio, avrete bisogno di determinare quanti campioni raccogliere, come i diversi fattori dovrebbero essere intrecciati, come scegliere buoni gruppi di controllo e di test, e così via. Per eseguire un forte design sperimentale utilizzando strumenti come il test A/B e concetti come la legge di potenza, la pratica migliore è quella di utilizzare come barometro l’idea di “esperimenti SMART (specifici, misurabili, azionabili, realistici, tempestivi).”

Matematica

La lingua degli analisti di dati sono i numeri, quindi ne consegue che una solida base in matematica è un elemento essenziale nel percorso per diventare un analista di dati.

A un livello base, dovresti essere a tuo agio con l’algebra del college. Dovrai tradurre in espressioni matematiche quelli che una volta conoscevi come “problemi di parole” (equivalente del mondo reale: problemi di business); dovrai essere in grado di manipolare espressioni algebriche e risolvere equazioni; e dovrai essere in grado di tracciare grafici di diversi tipi di funzioni, con una profonda comprensione della relazione tra il grafico di una funzione e la sua equazione.

Oltre a questo, una solida padronanza del calcolo multivariabile e dell’algebra lineare ti sarà utile come analista dati. Pensate: manipolazioni di matrici, prodotto di punti, autovalori e autovettori, e derivate multivariabili.

Apprendimento automatico

Il calcolo multivariabile e l’algebra lineare, insieme alla statistica, costituiscono la base dell’apprendimento automatico, che permette ai professionisti dei dati di fare previsioni o suggerimenti calcolati sulla base di enormi quantità di dati. Per una carriera come analista di dati, non avrete bisogno di inventare nuovi algoritmi di apprendimento automatico (competenze avanzate come questa vi qualificano per diventare uno scienziato dei dati), ma dovreste conoscerne i più comuni. Alcuni esempi includono l’analisi dei componenti principali, le reti neurali, le macchine vettoriali di supporto e il clustering k-means. Si noti che potrebbe non essere necessario conoscere la teoria e i dettagli di implementazione dietro questi algoritmi, ma si dovrebbero capire i pro e i contro, così come quando applicarli (e quando non applicarli) a un set di dati.

Ci sono tre tipi principali di apprendimento automatico che gli analisti di dati devono conoscere: apprendimento supervisionato, apprendimento non supervisionato e apprendimento per rinforzo.

Nell’apprendimento supervisionato, al “discente” (programma del computer) vengono forniti due set di dati, un set di allenamento e uno di test. Il computer “impara” da un insieme di esempi etichettati nell’insieme di allenamento in modo da poter identificare accuratamente gli esempi non etichettati nell’insieme di prova. L’obiettivo è che l’allievo sviluppi una regola che possa identificare gli elementi nell’insieme di prova. E’ l’apprendimento supervisionato che rende possibile al tuo telefono di riconoscere la tua voce, e alla tua email di filtrare lo spam. Gli strumenti specifici che userete includono:

  • alberi di decisione
  • classificazione Naive Bayes
  • regressione Ordinaria ai minimi quadrati
  • regressione logistica
  • reti neurali
  • support vector machines
  • e metodi ensemble.

L’apprendimento non supervisionato è quello che userete quando vi troverete di fronte alla sfida di scoprire relazioni implicite, e quindi strutture nascoste, in un dato set di dati “non etichettato”. L’apprendimento non supervisionato rende possibile a Netflix di consigliare i film che vi piaceranno, e ad Amazon di prevedere i prodotti che vi piaceranno. Gli strumenti specifici che userete includono:

  • algoritmi di clustering
  • Analisi delle componenti principali (PCA)
  • Decomposizione del valore singolare (SVD)
  • e Analisi delle componenti indipendenti (ICA).

Infine, l’apprendimento di rinforzo si applica a situazioni che cadono tra i due estremi di supervisionato e non supervisionato, cioè, quando c’è qualche forma di feedback disponibile per ogni passo o azione predittiva, ma nessuna etichetta precisa o misura di errore. Si può applicare l’apprendimento per rinforzo quando si vuole capire come massimizzare le ricompense, per esempio in aree come il controllo dei robot, gli scacchi, il backgammon, la dama, e altre attività che un agente software può imparare. Gli strumenti specifici che userete includono:

  • Q-Learning
  • TD-Learning
  • e algoritmi genetici.

Data wrangling

Ancora con noi? Le ultime tre abilità cruciali per il tuo sviluppo come analista di dati riguardano la manipolazione, la visualizzazione e l’interpretazione dei dati. Per trasformare il materiale grezzo in un utile e organizzato set di dati, entra in gioco il data wrangling (noto anche come “data munging”). Questo è il processo di raccolta e pulizia dei dati in modo che possano essere facilmente esplorati e analizzati.

Avrete bisogno di dotarvi della conoscenza dei sistemi di database (sia basati su SQL che su NoSQL) che agiscono come un hub centrale per memorizzare le informazioni. Sarà utile avere familiarità con i database relazionali come PostgreSQL, mySQL, Netezza e Oracle, così come Hadoop, Spark e MongoDB.

Altri concetti e strumenti essenziali per il wrangling dei dati includono espressioni regolari, trasformazioni matematiche e la libreria Python String per la manipolazione delle stringhe. Avrete anche bisogno di sapere come analizzare i formati di file comuni come i file csv e xml e come convertire la distribuzione non normale in normale con la trasformazione log-10.

Può sembrare tutto schiacciante in questo momento, specialmente se siete nuovi non solo alle competenze coinvolte, ma ad alcuni dei termini stessi. Ricordate che tutte queste competenze sono sovrapponibili: ognuna di esse vi aiuterà a costruire la successiva, e quella dopo ancora, fino a quando non sarete un analista di dati completamente attrezzato e pronto a prendere a calci nel sedere e a fare qualche nome.

Visualizzazione dei dati

Una volta che avete pulito, organizzato, sistemato, analizzato e interpretato i dati, volete essere in grado di illustrare visivamente i vostri risultati in modo che le parti interessate, compresi gli analfabeti di dati, possano capire pienamente. Non otterrete alcun credito per le vostre capacità di analisi dei dati se non comunicate le vostre intuizioni in modo chiaro ed efficace.

Sarà utile avere familiarità con strumenti di visualizzazione dei dati come ggplot, matplotlib, sea born e D3.js. Naturalmente, è fondamentale avere familiarità non solo con gli strumenti necessari per visualizzare visivamente i dati, ma anche con i principi alla base della codifica visiva di quei dati. Per intenderci, dovrete comprendere a fondo il contesto della situazione aziendale per determinare come collocare la vostra visualizzazione dei dati in modo che sia massimamente rilevante.

Intuizione dei dati e Problem Solving

Supportati dalla conoscenza tecnica delle competenze combinate di cui sopra, dovrete sapere come pensare, come porre le domande giuste. Potresti passare il resto della tua vita ad analizzare un singolo set di dati e a visualizzare la tua interpretazione in una moltitudine di formati con una pletora di risultati. La realtà è che avrai sempre e solo una quantità limitata di tempo e spazio per affrontare le domande dei tuoi collaboratori nell’analisi dei dati a portata di mano. Pertanto, è importante coltivare un’intuizione su ciò che è importante e ciò che non lo è.

Lavora per sviluppare una profonda comprensione del campo in cui stai lavorando, che si tratti del mercato azionario o dei beni di consumo confezionati. Investire il tempo necessario per lavorare su quanti più set di dati possibile, per esempio partecipando alle competizioni Kaggle, per imparare a evitare i vicoli ciechi. Imparate a percepire la “domanda dietro la domanda” negli incarichi, scavando a fondo, in altre parole, per scoprire gli esatti problemi di business che guidano la necessità di analizzare i dati.

Come diventare un analista di dati costruendo su un background di programmazione

Alcuni, o molti, contenuti di questa panoramica vi suonano familiari? Sei stato formato come ingegnere del software, o forse hai studiato programmazione al college, ma non hai ancora le solide basi matematiche necessarie per diventare un analista di dati? Sei in un’ottima posizione per iniziare un percorso di apprendimento, al culmine del quale sarai situato per il massimo successo nell’analisi dei dati.

La programmazione è un aspetto integrale dell’analisi dei dati.

Ecco cosa dovrai imparare dopo, in ordine, sulla strada per cliccare “apply” su un’offerta di lavoro come analista di dati.

Argomenti fondamentali

  • Statistica: Dovrai essere in grado di interpretare rigorosamente, fare inferenze e confrontare diversi tipi di dati applicando il giusto approccio, tecnica o test statistici a diversi tipi di distribuzioni. Controlla la ripartizione di cui sopra per strumenti e competenze specifiche.
  • Probabilità: Per trarre conclusioni accurate, gli analisti di dati devono essere in grado di ragionare sulla probabilità che un evento possa essere accaduto o che accadrà. Controlla la ripartizione di cui sopra per gli strumenti e le abilità specifiche.

Attività avanzate

  • Calcolo multivariabile/algebra lineare: Queste competenze matematiche avanzate sono meno importanti da conoscere rispetto alla statistica e alla probabilità, ma saranno sicuramente utili se si vuole capire come funziona effettivamente il machine learning. Inoltre, se si prevede di voler sfruttare le proprie capacità di analista di dati in una carriera come scienziato di dati ad un certo punto, il calcolo multivariabile e l’algebra lineare forniranno le conoscenze fondamentali per costruire i propri algoritmi.

Come diventare un analista di dati costruendo su un background matematico

OK, quindi forse sei un mago della matematica, ma non hai alcuna conoscenza della programmazione. Ecco una guida passo dopo passo per costruire quella conoscenza della programmazione che è così cruciale per diventare un analista di dati.

Argomenti fondamentali

  • Variabili, flusso di controllo, cicli, funzioni: Questi sono i mattoni fondamentali della programmazione. Conoscerli e amarli.
  • Debugging: Il vostro codice probabilmente non funzionerà correttamente la prima volta, o potrebbe rompersi quando si verificano situazioni inaspettate. Quando ciò accade, dovrete essere in grado di capire qual è il problema e perché sta accadendo. Questo è il momento in cui le abilità di debug saranno utili.
  • Programmazione orientata agli oggetti: Impara come strutturare il tuo codice in schemi di progettazione orientati agli oggetti, in modo che possa essere facilmente riutilizzato, testato e condiviso con altre persone.

Attività avanzate

  • Strutture dati: Per un credito extra, familiarizzate con pile, code, liste, array, hashmap, code di priorità, tentativi e grafici. Ci sono alcune situazioni in cui una struttura dati sarà superiore alle altre (in termini di utilizzo della memoria e di efficienza di esecuzione), e se capite queste relazioni, potete ottimizzare il vostro programma per farlo girare più velocemente e con più efficienza. Questo impressionerà il vostro team, e vi distinguerà dagli altri professionisti dei dati.
  • Algoritmi: Sapere quale algoritmo applicare in quale situazione può ridurre il tempo di esecuzione del vostro programma da qualche giorno a qualche ora, o la richiesta di memoria da qualche gigabyte a poche centinaia di megabyte. Lavorate per capire gli algoritmi divide et impera (D&C), gli algoritmi greedy, la programmazione dinamica, la programmazione lineare, e gli algoritmi dei grafi (profondità vs. ampiezza vs. traversata, alberi a scansione minima, e percorso più breve tra due nodi).
  • Modelli di progettazione software: Vuoi rendere il tuo codice robusto, riutilizzabile e testabile? Molti ingegneri del software e scienziati informatici pionieri hanno sviluppato modelli di progettazione del software per aiutarti a farlo. Diventa a tuo agio con essi in modo da poter eccellere nella tua analisi dei dati.

La linea di fondo

L’analisi dei dati è un campo in rapida crescita, e ci sono un sacco di voci là fuori che condividono ciò che è necessario imparare, in quale ordine. La varietà di informazioni può confondere, sopraffare e scoraggiare.

Sapete che potete fare affidamento su questa ripartizione come guida definitiva a ciò che è veramente necessario imparare per ottenere il primo lavoro di analista di dati, insieme alle prescrizioni su dove iniziare, a seconda del vostro background specifico.

L’investimento in una carriera come analista di dati è enorme, non importa se state appena iniziando o se state ampliando le capacità esistenti. Ma la ricompensa, lo promettiamo, è ancora più grande.

Vuoi saperne di più? Scopri il programma Udacity Data Analyst Nanodegree per iniziare la tua carriera come analista di dati.

Inizia ad imparare

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *