3 Caminhos para o seu Primeiro Emprego de Analista de Dados

Comece a aprender

p>Comece a sua viagem para se tornar um Analista de Dados.

Então quer ser um analista de dados? Parabéns! Escolheu uma carreira lucrativa, geograficamente flexível e super segura num campo que só vai continuar a florescer nos anos vindouros. É claro que tem de fazer o trabalho inicial de aprendizagem e afiar as competências necessárias antes de poder colher os benefícios. Siga este guia passo-a-passo, desde o guia de base até à aquisição das ferramentas para se tornar um analista de dados ultra-contratável.

3 Caminhos para o seu Primeiro Emprego de Analista de Dados

Para começar, precisa de saber que competências são necessárias para uma carreira de analista de dados. As principais áreas de especialização necessárias são:

  1. Programação
  2. Estatistica e Matemática
  3. Aprendizagem de Máquinas
  4. Dados de Análise
  5. Intuição e resolução de problemas

Não importa onde esteja no seu caminho para uma carreira em dados, provavelmente parece assustador considerar todas as competências de que ainda precisa para estar preparado para recrutar. Tipicamente, os trabalhadores de dados vêm de três origens diferentes, e o caminho para se tornar um analista de dados depende da sua proveniência.

  1. Início sem experiência
  2. Fortíssimo fundo de programação
  3. Fortíssimo fundo matemático

Dado o seu ponto de partida, qual é o seu melhor caminho para o seu primeiro trabalho de ciência de dados? Que competências pode utilizar para construir as suas bases da forma mais eficiente e eficaz?

É aí que entramos. É útil examinar cada um desses três cenários – experiência zero, programação mas sem matemática, matemática mas sem programação – em termos dos blocos de construção de dados de que necessitará para construir o seu conjunto de competências de dados finais.

Como tornar-se um Analista de Dados sem Experiência

Programação

Programação é um aspecto integral da análise de dados. É a principal habilidade que distingue os analistas de dados dos analistas de negócios. É preciso ser capaz de programar bem numa ou mais linguagens de programação – começar com Python ou R – e ter uma boa compreensão da paisagem das bibliotecas e pacotes de ciência de dados mais utilizados (tais como ggplot2, reshape2, numpy, pandas, e scipy).

Statistics

De que serve toda essa proeza de programação sem a capacidade de interpretar os dados? Uma compreensão das estatísticas, incluindo testes estatísticos, distribuições, e estimadores de máxima verosimilhança, é essencial na análise de dados.

Conheça-se com estatísticas descritivas e inferenciais. A primeira refere-se a medidas quantitativas que descrevem as propriedades de uma amostra; a segunda, a medidas preditivas que inferem propriedades da população maior através da interpretação da amostra. Precisará de conhecer as noções básicas, muitas das quais lhe parecerão familiares desde o liceu ou faculdade (média, mediana, modo; desvio padrão e variância; teste de hipóteses), sobre as quais irá colocar também competências estatísticas mais complexas (diferentes tipos de distribuição de dados: normal padrão, exponencial/poisson, binomial, qui-quadrado; e testes de significância: Teste Z, teste t, Mann-Whitney U, qui-quadrado, ANOVA).

Além das estatísticas descritivas e inferenciais, os analistas de dados precisam de ser adeptos da concepção estatística experimental. Este é o processo sistemático de selecção de parâmetros de modo a tornar os resultados válidos e significativos. Por exemplo, será necessário determinar quantas amostras a recolher, como diferentes factores devem ser entrelaçados, como escolher bons grupos de controlo e teste, e afins. Para executar um forte desenho experimental usando ferramentas como testes A/B e conceitos como a lei do poder, a melhor prática é usar como barómetro a ideia de experiências “SMART (Specific, Measurable, Actionable, Realistic, Timely)””

Math

A linguagem dos analistas de dados é a dos números, pelo que se segue que uma base forte em matemática é um elemento essencial no caminho para se tornar um analista de dados.

A um nível básico, deve estar confortável com a álgebra universitária. Terá de traduzir aquilo que outrora conheceu como “problemas de palavras” (equivalente no mundo real: problemas de negócios) em expressões matemáticas; terá de ser capaz de manipular expressões algébricas e resolver equações; e terá de ser capaz de fazer gráficos de diferentes tipos de funções, com uma profunda compreensão da relação entre o gráfico de uma função e a sua equação.

Além disso, uma sólida compreensão do cálculo multivariável e da álgebra linear servir-lhe-á bem como analista de dados. Pense: manipulações de matriz, produto de pontos, valores próprios e vectores próprios, e derivados multivariados.

Aprendizagem da máquina

Cálculo multivariável e álgebra linear, juntamente com estatísticas, constituem a base básica da aprendizagem da máquina, o que permite aos profissionais de dados fazer previsões ou sugestões calculadas com base em enormes quantidades de dados. Para uma carreira como analista de dados, não necessitará de inventar novos algoritmos de aprendizagem de máquinas (competências avançadas como essas qualificam-no para se tornar um cientista de dados), mas deverá conhecer os mais comuns. Alguns exemplos incluem a análise de componentes principais, redes neurais, máquinas vectoriais de suporte, e agrupamento de meios k. Note que pode não precisar de conhecer a teoria e os detalhes de implementação por detrás destes algoritmos, mas deve compreender os prós e contras, bem como quando (e quando não) aplicá-los a um conjunto de dados.

Existem três tipos principais de aprendizagem de máquinas que os analistas de dados precisam de conhecer: aprendizagem supervisionada, aprendizagem não supervisionada, e aprendizagem de reforço.

Na aprendizagem supervisionada, o “aprendiz” (programa de computador) é fornecido com dois conjuntos de dados, um conjunto de formação e um conjunto de testes. O computador “aprende” a partir de um conjunto de exemplos rotulados no conjunto de formação, de modo a poder identificar com precisão exemplos não rotulados no conjunto de teste. O objectivo é que o aprendente desenvolva uma regra que possa identificar os elementos do conjunto de teste. É a aprendizagem supervisionada que permite ao seu telefone reconhecer a sua voz, e ao seu correio electrónico filtrar o spam. As ferramentas específicas que irá utilizar incluem:

  • árvores de decisão
  • classificação Bayes ingénuo
  • regressão de mínimos quadrados ordinários
  • regressão logística
  • redes neurais
  • máquinas vectoriais de apoio
  • e métodos de montagem.

a aprendizagem sem supervisão é o que se utilizará quando confrontado com o desafio de descobrir relações implícitas, e portanto estrutura oculta, num dado conjunto de dados “não etiquetado”. A aprendizagem sem supervisão torna possível que a Netflix recomende filmes de que goste, e a Amazon preveja produtos de que vai gostar. As ferramentas específicas que irá utilizar incluem:

  • algoritmos de exclusão
  • Análise de Componentes (PCA)
  • li>Decomposição de Valores Singulares (SVD)

  • e Análise de Componentes Independentes (ICA).

Por último, a aprendizagem de reforço aplica-se a situações que se situam entre os dois extremos do supervisionado e não supervisionado, ou seja quando existe alguma forma de feedback disponível para cada etapa ou acção preditiva, mas sem etiqueta precisa ou medida de erro. Pode-se aplicar a aprendizagem de reforço quando se pretende descobrir como maximizar as recompensas, por exemplo, em arenas como o controlo de robôs, xadrez, gamão, damas, e outras actividades que um agente de software pode aprender. As ferramentas específicas que irá utilizar incluem:

  • Q-Learning
  • TD-Learning
  • e algoritmos genéticos.

Desenvolvimento de dados

p>Parou connosco? As últimas três capacidades cruciais para o seu desenvolvimento como analista de dados dizem respeito à manipulação, exibição e interpretação de dados. Para transformar a matéria prima num conjunto de dados útil e organizado, a discussão de dados (também conhecida como “data munging”) entra em jogo. Este é o processo de recolha e limpeza de dados para que possam ser facilmente explorados e analisados.

Terá de se equipar com conhecimentos de sistemas de bases de dados (tanto baseados em SQL como baseados em NoSQL) que actuam como um núcleo central para armazenar informação. Será útil estar familiarizado com bases de dados relacionais tais como PostgreSQL, mySQL, Netezza, e Oracle, bem como Hadoop, Spark, e MongoDB.

Outros conceitos e ferramentas essenciais para a manipulação de dados incluem expressões regulares, transformações matemáticas, e a biblioteca Python String para manipulações de cordas. Também precisará de saber como analisar formatos de ficheiro comuns, tais como ficheiros csv e xml e como converter a distribuição não normal para normal com transformação log-10.

Pode parecer tudo esmagador neste momento, especialmente se for novo não só em relação às competências envolvidas, mas também em relação a alguns dos próprios termos. Lembre-se de que todas estas competências são empilháveis: cada uma que domina irá ajudá-lo a construir a seguinte, e a seguinte depois disso, até ser um analista de dados totalmente equipado, pronto para dar pontapés no rabo e tomar alguns nomes.

Visualização de dados

Após ter limpado, organizado, arranjado, alisado, e interpretado os dados, quer ser capaz de ilustrar visualmente as suas descobertas de modo a que os interessados, incluindo os analfabetos de dados, possam compreender plenamente. Não receberá qualquer crédito pelas suas costeletas de análise de dados se não comunicar os seus conhecimentos de forma clara e eficaz.

Será útil estar familiarizado com ferramentas de visualização de dados como ggplot, matplotlib, sea born, e D3.js. Claro que é fundamental estar familiarizado não só com as ferramentas necessárias para mostrar realmente os dados visualmente, mas também com os princípios subjacentes à codificação visual desses dados. Para isso, terá de compreender intimamente o contexto da situação empresarial, a fim de determinar como situar a sua visualização de dados para ser o mais relevante possível.

Intuição de dados e resolução de problemas

Bolhido pelo conhecimento técnico das competências combinadas acima, tem de saber como pensar, como fazer as perguntas certas. Poderá passar o resto da sua vida a analisar um único conjunto de dados e a visualizar a sua interpretação numa multiplicidade de formatos com uma pletora de descobertas. A realidade é que terá apenas um tempo e espaço limitados para abordar as perguntas dos seus associados na análise dos dados em questão. Portanto, é importante alimentar uma intuição sobre o que é importante, e o que não é.

Trabalhe no sentido de desenvolver uma compreensão profunda do campo em que está a trabalhar, quer se trate da bolsa de valores ou de bens de consumo embalados. Invista o tempo necessário para trabalhar em tantos conjuntos de dados quanto possível, por exemplo, participando em concursos de Kaggle, para aprender a evitar becos sem saída. Aprenda a sentir a “questão por detrás da pergunta” em tarefas, escavando, por outras palavras, para descobrir as questões empresariais exactas que motivam a necessidade de analisar os dados.

Como se tornar um Analista de Dados, construindo sobre um Contexto de Programação

Did algum, ou muito, desse resumo de conteúdo soa-lhe familiar? Já foi formado como engenheiro de software, ou talvez tenha estudado programação na faculdade, mas ainda lhe falta a sólida base matemática necessária para se tornar um analista de dados?

Sem suor. Está numa óptima posição para iniciar uma viagem de aprendizagem, no ponto culminante da qual estará situado para o máximo sucesso na análise de dados.

p>Programação é um aspecto integral da análise de dados.

Aqui está o que terá de aprender a seguir, para que possa clicar em “candidatar-se” numa vaga de trabalho de analista de dados.

Tópicos fundamentais

  • Estatística: Terá de ser capaz de interpretar rigorosamente, fazer inferências e comparar diferentes tipos de dados, aplicando a abordagem, técnica ou testes estatísticos correctos a diferentes tipos de distribuições. Verifique a repartição acima para ferramentas e competências específicas.
  • Probabilidade: A fim de tirar conclusões precisas, os analistas de dados precisam de ser capazes de raciocinar sobre a probabilidade de um evento poder ter acontecido ou de acontecer. Verifique a desagregação acima para ferramentas e competências específicas.

Tópicos avançados

    li> Cálculo multivariável/Álgebra linear: Estas competências matemáticas avançadas são menos importantes de saber do que estatísticas e probabilidade, mas serão definitivamente úteis se quiser compreender como funciona realmente a aprendizagem de máquinas. Para além disso, se imaginar que pretende alavancar as suas escolhas de analista de dados para uma carreira como cientista de dados em algum momento, o cálculo multivariável e a álgebra linear fornecerão o conhecimento fundamental para construir os seus próprios algoritmos.

Como tornar-se um Analista de Dados Construindo sobre um fundo matemático

OK, por isso talvez seja um génio da matemática, mas não tenha conhecimentos de programação. Aqui está um guia passo a passo para construir esse conhecimento de programação que é tão crucial para se tornar um analista de dados.

Tópicos fundamentais

  • Variáveis, fluxo de controlo, loops, funções: Estes são os blocos básicos de construção da programação. Conhecê-los e adorá-los.
  • Debugging: O seu código provavelmente não funcionará correctamente na primeira vez, ou poderá quebrar-se quando ocorrerem situações inesperadas. Quando isso acontecer, terá de ser capaz de descobrir qual é o problema e porque é que isso está a acontecer. É aqui que a capacidade de depuração virá a calhar.
  • Programação orientada para objectos: Aprenda a estruturar o seu código em padrões de concepção orientada a objectos, para que possa ser facilmente reutilizado, testado e partilhado com outras pessoas.

Tópicos avançados

  • Estruturas de dados: Para crédito extra, familiarize-se com Pilhas, Filas, Listas, Arrays, Hashmaps, Filas Prioritárias, Tentativas, e Gráficos. Existem certas situações em que uma estrutura de dados será superior a outras (em termos de utilização de memória e eficiência de tempo de execução), e se compreender estas relações, poderá optimizar o seu programa para que seja executado mais rápida e eficientemente. Isso irá impressionar a sua equipa, e distingui-lo entre outros profissionais de dados.
  • Algoritmos: Saber que algoritmo aplicar em que situação pode reduzir o tempo de execução do seu programa de alguns dias para algumas horas, ou a necessidade de memória de alguns gigabytes para algumas centenas de megabytes. Trabalhar para compreender algoritmos de dividir e conquistar (D&C), algoritmos gananciosos, programação dinâmica, programação linear, e algoritmos gráficos (profundidade vs. largura vs. travessia, árvores de amplitude mínima, e caminho mais curto entre dois nós).
  • Padrões de desenho de software: Quer tornar o seu código robusto, reutilizável e testável? Muitos engenheiros de software e cientistas informáticos pioneiros desenvolveram padrões de concepção de software para o ajudar a fazê-lo. Torne-se confortável com eles para que possa destacar-se na sua análise de dados.

The Bottom Line

Análise de dados é um campo em rápido crescimento, e há muitas vozes por aí a partilhar o que precisa de aprender, em que ordem. A variedade de informação pode ser confusa, esmagadora, e desencorajadora.

Saber que pode confiar nesta repartição como o guia definitivo do que realmente precisa de aprender para conseguir aquele primeiro trabalho de analista de dados, juntamente com receitas para onde começar, dependendo dos seus antecedentes específicos.

O investimento numa carreira como analista de dados é enorme, não importa se está apenas a começar ou se está a expandir as capacidades existentes. Mas o retorno, prometemos, é ainda maior.

Quer saber mais? Verifique o programa Udacity Data Analyst Nanodegree para iniciar a sua carreira como Analista de Dados.

Comece a aprender

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *