Machine learning: uma luz (dashboard) diferente nos Paradise Papers

Machine LearningNão menos de 380 jornalistas, membros do ICIJ (International Consortium of Investigative Journalists – Consórcio Internacional de Jornalistas de Investigação) estão a investigar, desde o início do ano, 13 milhões de documentos. Os resultados da sua investigação estão a ser divulgados no chamado Paradise Papers. Demorou quase um ano a pesquisar esses documentos, à procura de ligações entre o presidente Putin e o secretário de comércio do governo norte-americano Wilbir, Ross. Um feito impressionante, no qual a ciência dos dados e os algoritmos de ponta de machine learning desempenharam um papel importante.

Quem é o melhor investigador: humanos ou computadores?

Como alguns jornalistas escreveram: foi como procurar uma agulha num palheiro gigante. Os jornalistas belgas desta investigação pesquisaram esses dados para qualquer coisa relacionada com o nosso país. Muitas vezes pesquisaram uma pista específica durante muito tempo apenas para descobrir que, no final, era um beco sem saída. É aqui, precisamente, que a ciência dos dados deve entrar: na procura por padrões, de uma forma eficiente e eficaz, em grandes quantidades de dados.

Se a machine learning e a ciência de dados tivessem sido utilizados durante esta investigação, isso levaria, provavelmente, a resultados úteis muito mais rápidos, mesmo recorrendo a uma equipa menor que os 380 jornalistas do mundo inteiro que trabalharam durante meses. Os algoritmos da ciência dos dados e da machine learning podem apoiar o processo de investigação, apontando, aos jornalistas, padrões potencialmente “suspeitos”. A machine learning não pode substituir o factor humano, mas pode aumentar, de forma significativa, a velocidade da pesquisa: em vez de procurar por padrões interessantes nas montanhas de dados eles (os jornalistas) podem concentrar-se na validação dos padrões descobertos pela máquina.

Onde o computador faz a diferença: velocidade

Esta utilização da ciência dos dados está longe de ser algo novo. Todos os dias os algoritmos estão a ser utilizados para inúmeras transacções, sem que nos apercebemos de nenhum deles. Pense, por exemplo, no sector financeiro. A análise das transacções financeiras já não é executada por especialistas humanos, mas sim por computadores que usam algoritmos de machine learning para executar estas análises a uma velocidade acelerada (super-velocidade). Por cada transacção efectuada num terminal de pagamento de uma loja o computador deve decidir, em apenas seis segundos, se a transacção é ou não válida. Dentro desse curto espaço de tempo todos os dados relevantes são guardados, investigados para detectar padrões e sinalizados se se descobrir qualquer anomalia. Ao longo destes processos há uma curva contínua de aprendizagem para entender como funcionam os fraudadores. A machine learning também permite que os sistemas informáticos identifiquem padrões específicos e se adaptem de acordo com os algoritmos.

Esta tecnologia de machine learning pode contribuir e muito para a investigação dos Paradise Papers. As máquinas podem detectar e analisar transacções entre organizações e indivíduos numa fracção de tempo necessária para os investigadores humanos, originando resultados muito mais rápidos. A análise da rede, uma das capacidades da machine learning, automaticamente investiga todas as ligações entre empreendimentos, indivíduos e organizações. Esta técnica é uma contribuição valiosa para analisar e visualizar redes: quando realizada manualmente estas tarefas podem demorar anos e anos.

Onde o jornalista faz a diferença: interpretação

Ao usar análise de texto pode, automaticamente, recuperar pessoas, empreendimentos, conexões e outras informações interessantes de uma grande quantidade de documentos. Estes documentos não estruturados são então transformados em informação estruturada. O computador cuida de todos os preparativos e os jornalistas podem-se concentrar na análise posterior.

Detector redes de fraude organizadas em larga escala não está limitada à ficção (científica). A combinação poderosa do homem e máquina permite um rápido e efectivo desmantelamento de tais redes. À medida que o processamento de dados se torna mais maduro esperamos poder descobrir e resolver tais anomalias, mesmo sem fuga de dados.

Uma única máquina pode substituir o trabalho manual de centenas de indivíduos. Mas não me interpretem mal: em última análise, só se consegue ser bem sucedido com a interacção correcta entre o homem e a máquina. Um computador pode descobrir correlações, mas não (ainda) as casualidades. Pode descobrir muitas pistas com muita rapidez, mas ainda necessita de humanos para o orientar na busca e para lidar com as descobertas. Porque, no final, mesmo quando alimentado pela machine learning, um computador ainda não possui a capacidade (à moda antiga) de interpretação humana.

Véronique Van Vlasselaer, consultora analítica no SAS e co-autora do livro “Fraud Analytics Using Descriptive, Predictive, and Social Network Techniques: A Guide to Data Science for Fraud Detection”.

Se gostou do tema aconselhamos a leitura do paper “The Evolution of Analytics – Opportunities and Challenges for Machine Learning in Business”.  

 

 

 

Deixar uma resposta