nsc
nsc

NOVA ERA DIGITAL

O passo a passo para um projeto de ciência de dados

Compartilhe

NSC
Por NSC Lab
04/01/2021 - 13h27 - Atualizada em: 04/01/2021 - 13h35
Dashboard para análise de dados
Exemplo de dashboard para análise de dados (Foto: Luke Chesser via Unsplash)

Na era da informação, termos como “Big Data” e “data-driven” têm se tornando comuns no cotidiano empresarial e até mesmo em nossa vida pessoal, o primeiro se refere ao grande volume de dados que estamos nos envolve diáriamente: milhões de tweets são compartilhados, videos no youtube assistidos, mensagens de WhatsApp enviadas; essa grande massa de dados se chama Big Data.

data-driven é sobre ter uma mentalidade focada em tomar decisões baseadas em dados. Por exemplo: Qual seria o melhor canal para divulgar meu produto? Redes sociais ou anúncios de TV? Com a mentalidade data-driven buscaríamos números para embasar nossa decisão, como por exemplo: qual o canal que possui mais audiência? Essa audiência tem o perfil do meu cliente ideal? E por aí vai...

Com toda essa massa de dados sendo produzida a todo momento seja através da internet, de sistemas de computação ou mesmo de dispositivos como celulares e smartwatchs, surgiu a necessidade de uma disciplina específica, que foi batizada de Ciência de Dados. Apesar de o termo ser relativamente novo, a Ciência de Dados já vem sendo praticada há muito tempo. É um mix de estatística, matemática, software e conhecimento de negócios para tirar proveito do grande volume de dados, encontrar padrões e até mesmo respostas que passam despercebidas frente à grande quantidade de informações que nos deparamos diariamente.

Data Never Sleeps
Os dados nunca dormem
(Foto: )

Então, como posso em minha empresa desenvolver um projeto para tirar proveito dos dados que possuo?

O ideal seria ter um time de analistas, engenheiros e cientistas de dados que pudessem estruturar o projeto. Mas se sua empresa não tem um time com todos estes profissionais, não tem problema, vou te mostrar quais são os passos essenciais a serem seguidos:

1. Entendimento do Negócio

O primeiro passo é conhecer as regras do negócio, da empresa e do processo o qual queremos promover nossa descoberta com os dados e possível solução de problemas. Efetuar um mapeamento de como as coisas acontecem e ter algumas estatísticas básicas dessa problemática são essenciais. Este é o momento de fazermos as perguntas, qual é o problema? O que pretendemos resolver?

2. Requerimento dos Dados

Neste passo, mapeamos quais dados podem resolver nosso problema, analisando as fontes de informações que podem conter os insights que buscamos. Como no exemplo que damos acima, em uma problemática de escolher o melhor canal de divulgação do meu produto entre redes sociais ou vídeos(youtube), as fontes de informação poderiam ser o facebook e youtube insights para conhecer a audiência e coletar métricas de acessos.

3. Coleta de Dados

Esse é o momento de coletar os dados de fato, criar nosso repositório (um local para salvar nossos dados) em alguns casos uma simples planilha pode resolver, mas imagine que em determinados casos, podem haver tantos dados que nem mesmo uma planilha excel ou google sheets poderia suportar. Neste caso entra a disciplina de software no projeto de dados, onde seria necessário definir o método de coleta dos dados, seja através de uma API, ou download de um arquivo .csv ou .xlsx, e dependendo do tamanho deste arquivo seria necessário um banco de dados para armazenamento.

4. Entendimento dos Dados

Essa é a hora de usarmos os conhecimentos de estatística e de negócio para compreender os dados os quais estamos analisando. Deve-se observar se o conjunto de dados está completo, se existem outliers (intervalos de dados que fogem do padrão), a relação entre os dados.

Por exemplo, se estamos analisando um banco de dados de público e audiência de uma campanha de marketing, podemos observar se existe relação direta entre a idade média da nossa audiência e o nível de consumo do nosso produto. Uma análise como esta seria uma observação de correlação linear entre as variáveis, outra opção poderia ser uma análise de variância entre os grupos, daí a necessidade dos conhecimentos de estatística. Com o apoio de softwares e de inúmeras bibliotecas de desenvolvimento em ciência de dados, observar correlação entre as variáveis de um conjunto de dados pode levar minutos!

5. Preparação e Modelagem de Dados

Se na sua empresa existe um time de análise dados, talvez já tenha ouvido falar em “os dados estão sujos” ou “precisamos limpar os dados antes de qualquer coisa”. Quando se se está coletando e entendendo os dados, é o momento de avaliar se existem dados faltantes, como por exemplo: observamos que 30% dos clientes cadastrados estão com a informação de cidade faltando, nesse caso uma análise de clientes por região estaria distorcida, pois não temos essa informação, certo?  É neste momento que se pode decidir por remover aqueles 30% da análise, neste momento também podemos calcular novas métricas sob nossos dados, por exemplo: se tenho a data de nascimento do meu cliente, posso calcular a idade e agrupar os clientes por faixa etária.

A transformação digital já aconteceu; e a sua empresa, mudou?

Plataforma tem mais de 550 vagas em tecnologia com salários de até R$ 15 mil

6. Desenvolvimento e Entrega

O produto das etapas anteriores pode se transformar em um dashboard (painel com gráficos) para analisarmos os dados. Com os dados agrupados em formato visual, é o memonto de discutir com as áreas da empresa envolvidas na etapa 1, as informações geradas para então gerar e interpretar insights. A ideia de um projeto de dados é que os gráficos e as informações geradas sejam conversíveis em ações, por exemplo: através da análise de dados cruzando informações de acessos do nosso site com novas vendas, percebemos que houve uma queda consecutiva de 20% mês após mês. O que fazer? Na mesma análise percebemos que um grupo de clientes em especifico parou de comprar e que justamente este grupo representava 60% das vendas. Um plano de ação seria entrevistar estes clientes e entender o motivo prático. Essa entrega além de ser um dashboard, pode também ser um modelo de machine learning (inteligência artificial) que pode automatizar as análises e inclusive prever cenários futuros com base no histórico e dados passados.

7. Ciclo de Feedback

Quanto mais investigamos os dados, novas ideias vão surgindo, as áreas da empresa podem solicitar novas análises, novos gráficos e novas análises. Esse passo a passo torna-se um ciclo de melhoria contínua, porém para que o projeto de dados não seja algo sem fim, é muito importante investir bem na etapa 1 , definir bem o problema a ser resolvido é essencial para o time de dados atuar de maneira focada.

Em nossos exemplos descrevemos uma análise isolada, porém existe a possibilidade de automatizar o processo de coleta e preparação dos dados para que nosso dashboard ou modelo de inteligência artificial funcione de forma automatizada, ou seja, quando novos dados surgirem na fonte, todo o processamento aconteça sem intervenção do cientista de dados, neste caso estaríamos desenvolvendo um projeto de engenharia de dados.

Robson Müller - Engenheiro de Dados no NSC Lab

Labs de Inovação: entenda o que é e saiba se a sua empresa precisa de um

NSC Lab

Colunista

NSC Lab

Laboratório de experimentação digital da NSC Comunicação. Tecnologia, dados, cultura digital e novos negócios inovadores. Contato: lab@somosnsc.com.br

siga NSC Lab

NSC Lab

Colunista

NSC Lab

Laboratório de experimentação digital da NSC Comunicação. Tecnologia, dados, cultura digital e novos negócios inovadores. Contato: lab@somosnsc.com.br

siga NSC Lab

Mais colunistas

    Mais colunistas