Estatística na era do Big Data e dos Data Scientists

estatisticaDependendo se é uma pessoa que prefere ver o copo meio cheio ou meio vazio a revolução big data é, ou uma enorme benção para a carreira de um estatístico, ou um dos ingredientes para uma crise existencial. Tal como acontece com a maioria das coisas… provavelmente é um pouco de ambos.

Por outro lado, a Harvard Business Review atribui aos Data Scientists o título de o trabalho mais sexy do século XXI. Dado que pelo menos alguns dos estatísticos podem muito bem serem qualificados para preencher esse papel (sexy) e que estes postos de trabalho têm uma remuneração elevada, esta pode muito bem ser uma profissão lucrativa e gratificante.

No entanto, por outro lado, desde o início que é ensinado aos estatísticos, o valor de um projecto experimental rigoroso, o ter a certeza de que há uma amostra representativa e, sobretudo, a nunca tirar conclusões precipitadas e prematuras. Na era da análise do big data, de fazer todas as análises a todos os dados, os estatísticos vêem frequentemente esta premissa a ser desafiada.

Acredito, no entanto, e à medida que o big data começa a permear todos os aspectos da nossa vida, que precisamos ainda mais de pensamento estatístico e não apenas dos estatísticos.

Deixe-me explicar o meu raciocínio:

O campo da estatística começou como uma abordagem científica inferencial decorrente, em grande parte, da aspiração histórica de generalizar os fenómenos observados num pequeno grupo, de um grupo maior. Basicamente isto significa  que a estatística surgiu da necessidade de chegar a conclusões a partir de dados representativos incompletos.

Há 300 anos o início da abordagem estatística foi criada para calcular a população de Londres durante a peste, sem ter de contar todas as pessoas (o que era não só impossível como um risco para a saúde, ainda mais com os recursos disponíveis na altura).

Foi usado o conceito de amostra representativa e com uma metodologia muito rigorosa. A estatística fazia (e ainda o faz) a avaliação do que os dados reais (exemplo: contagens, médias, correlações, tendências, regressões, etc), mas, tão ou mais importante foi a análise rigorosa de saber/definir se a amostra era representativa da maioria da população.

À primeira vista, com as capacidades actuais do custo efectivo de armazenar e explorar as sempre crescentes quantidades de dados, a necessidade de ter uma amostra parece ter sido enterrada de vez. Mas isto significa que as considerações de amostragem e generalização passaram de moda no mundo do big data?

Vamos considerar por um momento: está realmente uma base de dados completa?

  • A autoridade fiscal pode, em teoria, ter análises completas sobre todos os contribuintes mas:
    • será que tem todos os dados relevantes dos activos dos contribuintes, as despesas, os aspectos sócio-económicos, etc?
    • Será que têm dados duplicados?
    • Será que há perfis em falta?
    • E é possível comparar com outras regiões, países, distritos?
    • E é possível ter um conjunto completo de perfis fraudulentos?
  • Uma organziação pode, em teoria, fazer uma análise sobre todos os seus clientes, mas:
    • A sua base de clientes é representativa da sua base de clientes alvo?
    • Será que têm mais dados sobre os clientes fiéis?
    • E sobre a concorrência?
    • E mais uma vez, será que têm todos os dados relevantes das redes sociais, feedback do atendimento ao cliente, da rede de clientes, etc?
  • Uma petrolífera pode, em teoria, analisar todos os seus sensores de uma plataforma de petróleo mas:
    • Isso é representativo de todos os sensores?
    • Os dados obtidos pelos sensores são suficientes?
    • Precisamos de enriquecer essa informação com dados meteorológicos?
    • À medida que a reserva de petróleo se esvazia o histórico do comportamento dos sensores constitui um bom indicador do comportamento futuro do sensor?
  • Mesmos os serviços de música como o Spotify podem avaliar o comportamento dos seus ouvintes mas:
    • Podem realmente prever as preferências individuais tendo pro base apenas as co-ocorrências?
    • As classificações são consistentes e aplicadas universalmente?
    • Podem converter os seus dados em valor para o cliente, oferecendo-lhes mais música de que eles gostam?

A única resposta correta a todas estas perguntas começa sempre por “depende”.

E é exactamente por isso que a estatística e as análises ainda têm um papel crucial na análise de big data e na organização inovadora. Na minha opinião as estatísticas são muito mais do que qualquer outra doutrina rígida. As Estatísticas ou ter uma “inclinação estatística” significa ter uma mentalidade crítica sobre a função que os números podem desempenhar na descrição do mundo real.

Só porque o meu conjunto de dados é maior que o seu, não significa que retirarei mais informações: apenas que o potencial de aprendizagem é maior, com mais dados e maiores análises. Ainda precisarei de pensadores com mentalidade analítica para tirar as conclusões apropriadas.

Por isso, segure a sua vantagem competitiva, siga os estatísticos. O potencial do big data é verdadeiramente impressionante. Mas cabe a nós fazê-lo funcionar. E se somos bem pagos por isso… bem.. isso é apenas um efeito colateral de um trabalho bem feito.

 

Andrew_Pease_SASAndrew Pease – Principal Business Solutions Manager, SAS

Depois de 14 anos a percorrer diversas funções no SAS Andrew é actualmente o responsável pelas análises avançadas no Centro de Excelência. Ajuda instituições financeiras, retalhistas, farmacêuticas, industria, utilities e o sector público a compreender e a usar técnicas analíticas, tais como a gestão da decisão, modelos preditivos, optimização e text mining.

Deixar uma resposta