Conectividade

O mundo dos cartomantes e adivinhos sempre esteve muito próximo do mundo do Business Intelligence e da Ciência de Dados. Muitas das adivinhações e previsões feitas pelos primeiros não eram retiradas de cartas de baralho, bolas de cristal e borras de café e, sim, de dados visuais trazidos com a pessoa do cliente.

Os mesmos questionamentos feitos pelos clientes para os adivinhos, lá no passado, também são aqueles feitos pelas empresas para suas equipes de analistas de dados nos dias atuais:

  • O que fizemos de certo ou errado no passado? 
  • O que devemos fazer no presente? 
  • O que o futuro nos aguarda?

Para responder a essas perguntas, são usados dados relacionados ao negócio, que acompanham a trajetória da empresa e do mercado. Neste âmbito, quanto mais dados estiverem acessíveis, mais certeiras serão as previsões. Continue lendo!

Respostas sobre passado e presente: business intelligence (BI)

O objetivo do BI é responder a questionamentos capazes de auxiliar empresas e gestores na tomada de decisão. São dados que revelam ocorrências, os momentos de determinadas ocorrências e sua frequência, para que, quando processados em conjunto, apontem mais informações sobre um cenário.

E o Business Intelligence age a partir do agrupamento de acontecimentos similares, realizando somas e médias, e mostrando a sua variação numa linha de tempo. São as métricas que podem ser usadas para responder o quanto estamos acertando ou errando em um período específico.

Ainda considerando algumas perguntas que o BI pode nos ajudar a responder, temos:

  • Quais os meses em que temos mais vendas? 
  • Quais os horários em que temos mais vendas?
  •  Estamos em uma linha ascendente de venda? 
  • O quanto essa linha está ascendente?

Como as possibilidades são inúmeras, o profissional de BI precisa ter as perguntas prontas antes de partir para sua aventura. Para começar a trabalhar, é importante entender os propósitos da análise de dados para que as perguntas certas possam ser respondidas.

O analista de BI, como um bruxo com seus caldeirões e livros de poções, prepara as sopas de dados para responder perguntas específicas. Esses caldeirões de dados são chamados armazéns de dados ou data warehouse. Cada poção mágica é previamente preparada e engarrafada ganhando um rótulo com aquelas perguntas às quais é capaz de responder.

Quem fornece as perguntas? Gerentes da empresa ou equipes de governança.

E, além das perguntas, esses administradores e líderes do negócio precisam estudar as métricas para definir os indicadores, pontos a partir dos quais algo é bom ou ruim.

Então, por exemplo, olhando para as métricas de vendas mensais, não sabemos o quanto um percentual de vendas é bom ou ruim. Obviamente, em um gráfico de linhas mostrando vendas, toda linha que sobe será boa e toda linha que desce será ruim, no entanto, não sabemos se estamos cumprindo alguma meta, nem quanto estamos cumprindo.

É preciso ter um indicador, uma linha traçada no gráfico indicando que as vendas acima serão boas, porque estão dentro ou acima das metas, e as vendas abaixo dessa linha, mesmo quando positivas, não serão boas porque estão abaixo das metas.

Os indicadores são como chaves de resultado, Key Results. Empresas ou pessoas que adotam a metodologia OKR, Objectives and key results, para definir e perseguir objetivos, precisam desses indicadores para saber o quanto estão próximos dos objetivos traçados para o período. Os objetivos são formulados numa frase como “Eu vou (Objective) medido por (Key Results)”. Esses Key Results são os indicadores mostrados nos gráficos e relatórios desenvolvidos pelos analistas de BI.

Dados como auxílio para a análise intuitiva

Apesar do vasto conhecimento obtido pela interpretação dos dados, há algumas perguntas que os dados por si só não são capazes de responder. São perguntas como “por que tivemos queda nas vendas de julho?” ou “Por que vendemos mais em novembro?”.

Essas perguntas precisam ser respondidas por alguém que seja capaz de fazer deduções utilizando diversas fontes de dados auxiliares, como calendários de feriados e promoções, dias em que ocorrem liberação de dinheiro pelas empresas - a exemplo do pagamento do 13º salário - ou época em que ocorrem mais férias, entre outras dezenas de fontes desconexas que podem explicar o motivo.

Quem observa os gráficos e relatórios gerados pelo BI tenta deduzir o motivo atrelado a determinado cenário por meio do seu conhecimento holístico. Mas, recentemente, outro profissional de dados surgiu para tentar responder os porquês: o cientista de dados. Ele passa a atuar diante da ascensão do Big Data e vai além da intuição, porque utiliza um universo gigantesco e dinâmico de fontes variadas de dados. Esse profissional, especializado em estatística e matemática aplicada em análise preditiva, pode fazer toda a diferença.

data-scientist-musthave-skills-1.jpg
Fonte: ProSchool Online

Do BI à ciência de dados para prever condições futuras

Há cerca de uma década, empresas detentoras de redes sociais, como o Facebook, enfrentaram um grande desafio: lidar com centenas de terabytes de dados por hora sobre os mais diversos assuntos e nos mais diversos formatos, a exemplo de fotos e vídeos. O problema não era apenas lidar, mas monetizar esses dados, extrair informações de valor para a própria empresa e, principalmente, para negociar com outras empresas. Surgiu daí uma nova especialização na área de análise de dados, o Cientista de Dados.

O cientista de dados precisava encontrar padrões em um universo de dados caótico e sem qualquer lógica aparente. Diversos programas de computador foram escritos com a única finalidade de encontrar padrões em conjuntos de dados gigantescos e dinâmicos, seja comparando com outros conjuntos de dados já conhecidos, seja criando agrupamentos a partir de certas características.

Para entendermos melhor, um exemplo clássico da área de Ciência de Dados: certas características de flores como tamanho, formato, cor, espessura, quantidade de pétalas, comprimento das pétalas, entre outras, foram previamente catalogadas como sendo características de rosas em um jardim de rosas de todos os tipos e tamanhos. A partir daí, utilizando um certo programa de computador e passando as características presentes em qualquer flor, seria possível dizer quando a flor encontrada seria uma rosa.

Obviamente, havia uma margem de erro porque a previsão sempre era feita usando um padrão obtido de “treinamento”, tentativas de acerto e ajustes. Foram chamados algoritmos supervisionados, utilizados naquelas situações em que sabemos o que estamos procurando. O reconhecimento de biometria utiliza esses algoritmos fornecendo os pontos de impressões digitais para serem comparados com um universo gigantesco de impressões digitais previamente armazenadas, existindo uma certa margem de erro. Nem Nostradamus acertou tudo, imagine um programa de computador.

Então, no universo de negócios, os cientistas de dados precisam de volumes gigantescos de dados contendo detalhes de vendas, clientes, vendedores, clima, tempo, geografia, entre outros dados desconexos para encontrar padrões e responder aos porquês. Quanto mais dados e mais fontes de dados, mais precisas serão as respostas.

Além de responder aos porquês, a área de Ciência de Dados é capaz de predizer o futuro a partir da análise de dados do passado e do presente. Utilizando conceitos de padrões comportamentais, dedução sobre causas e consequências, consegue apontar ações que devem ser tomadas para que determinados objetivos sejam atingidos.

Um exemplo clássico dessa previsão é a disposição de mercadorias nas gôndolas de supermercados. A partir da análise de produtos colocados nas cestas, cientistas de dados apontaram que os clientes compravam muito mais certos itens quando eles estavam próximos nas gôndolas como macarrão e molho de tomate. Havia um padrão nas compras, apesar de parecer algo aleatório à primeira vista.

Diferenças entre BI e Ciência de Dados

Já vimos algumas diferenças entre Bi e Ciência de Dados como o tipo de resposta obtido, “o que?” para BI e “por que?” para Ciência de Dados. Já quanto o assunto é o volume de dados, os dados do negócio são usados pelo BI, enquanto uma infinidade de dados, de outras fontes e tipos, são usados pela Ciência de Dados. Por fim, o tipo de análise também é diferente: no BI temos a análise descritiva, já para a ciência, temos a análise preditiva.

Citando termos de informática, o BI utiliza, quase sempre, linguagem SQL e bancos de dados relacionais com registros padronizados e bem estruturados na forma de tabelas e colunas, semelhante às planilhas eletrônicas. O processamento é feito em servidores simples e que, quando necessário, são escalados verticalmente, aumentando o seu poder de processamento com mais memória, CPU e discos. O produto final serão gráficos e relatórios apresentados em ferramentas de dashboards como Power BI.

A Ciência de Dados utiliza linguagens específicas como R ou Python para executar algoritmos estatísticos e matemáticos buscando padrões ou agrupamentos, uma técnica conhecida como machine learning. São necessárias centenas ou milhares de máquinas agrupadas como uma única  máquina ou cluster. O escalonamento acontece horizontalmente, adicionando mais máquinas quando é necessário adicionar poder de processamento.

lumascape-6.png
Fonte: LakeFS

E as mais recentes tecnologias são utilizadas nesses clusters como o conjunto de ferramentas do Hadoop associado com o Apache Spark, Airflow, Nifi, entre outras. O cientista de dados precisa do auxílio de um Engenheiro de Dados que é quem manipula as ferramentas para realizar a maioria das tarefas sobre as mais diversas fontes de dados, estruturados ou não. Também, é o engenheiro de dados quem trabalha para entregar o resultado da ciência de dados para aplicações e websites.

Big Data como requisito para a ciência de dados

A diferença entre um conjunto de dados “normal” e um Big Data pode ser percebida pela caracterização feita para Big Data pelos estudos e pesquisas de Ciência de Dados, são os 5 “V”s:

  • Volume;
  • Velocidade;
  • Variedade;
  • Veracidade;
  • Valor.

Como exemplo, vemos os dados do Facebook, plataforma que armazena mais de 100 Terabytes de dados por hora, nos mais diversos formatos, sem qualquer estruturação, contendo informações relevantes ou não. Então, o conjunto de dados do Facebook é, com certeza, Big Data. Os dados armazenados em um banco de dados relacional, por exemplo, não são Big Data, principalmente porque não tem variedade de fontes, porque conta com uma única fonte de dados estruturados. E a Ciência de Dados precisa de volume de dados para que amostras, amostragens e padrões possam ser descobertos cruzando informações desconexas para encontrar causas e consequências e conseguir responder os porquês.

Então, não é qualquer empresa que pode ter Ciência de Dados. Não só pela questão de Big Data, mas, principalmente, pela questão de maturidade da empresa na área de dados.

Por onde as empresas devem começar

Lendo tudo que foi escrito acima, fica fácil perceber que a complexidade no universo da Ciência de Dados é extrema, é algo incerto e de alto custo, necessitando da habilidade e conhecimento de diversos profissionais de diferentes áreas de tecnologia e matemática. Não é possível fazer Ciência de Dados com um único profissional. Então, logicamente, BI é por onde as empresas devem começar, associando com uma metodologia de gestão como OKR.

O futuro da Ciência de Dados e do BI

O que se vislumbra no futuro é a inteligência artificial sendo aperfeiçoada para disponibilizar o BI. Então, em um universo de Big Data, serão extraídos os dados para as necessidades de um ou vários BI, relacionados ou não. Já são discutidos conceitos como o de Self-Service BI. Mas, se muitas empresas ainda nem têm o tradicional BI, podemos imaginar que esse futuro Self-Service BI ainda está bem lá no futuro.

Para ficar por dentro de mais assuntos sobre tecnologia, visite nosso blog Vsoft.

Success! You're signed up
Oops! Something went wrong while submitting the form.
go  top