Big Data exige Big Qualidade

Big-Data-IDGNS

Ao contrário da aquisição de dados, que pode  acumular exponencialmente, nós geralmente tratamos dos da correcção dos dados num caracter excepcional, usando recursos manuais, linearmente dimensionados. Não podemos escalar manualmente a correcção de dados para acompanhar o aumento do volume dos dados, o que significa que devemos automatizar os nossos processos de qualidade de dados com ferramentas pelo menos tão robustas como os nossos recursos de armazenamento e de aquisição de dados.

Não nos podemos dar ao luxo de aumentar os recursos humanos que hoje corrigem talvez 100 erros de dados por semana de nomes de clientes, moradas, datas de envio… para lidar com dezenas de milhares de erros do género. A nossa única alternativa é automatizar, detectar e corrigir esses erros logo de início.

Numa publicação anterior (“Big Silos”) referi as três fontes primárias do Big Data: visualmente densas (por exemplo, vídeo, satélite), temporariamente densas (áudio, sensores) e transacções (POS, SKUs). Gostaria de alterar essa classificação de forma a incluir uma quarta fonte primária (que inicialmente ignorei): dados não estruturados, incluindo os das redes sociais.

80% Dos dados corporativos são não estruturados, tornando-os, potencialmente, a maior fonte, única, do Big Data. Quando começamos o processo, para estruturar e armazenar esses dados não estruturados, através de técnicas como análise de texto e categorização de conteúdo, precisamos de nos lembrar de aplicar os mesmos padrões de qualidade de dados que utilizamos nos dados transacionais tradicionais.

Por exemplo: os contractos com clientes e fornecedores são um dos primeiros candidatos à aplicação da análise de texto para derivar o seu valor (por exemplo, gestão do risco corporativo). Depois de extrair e categorizar os “suspeitos” usuais – nome, endereço, datas de vigência, etc – há riqueza nos dados disponíveis no corpo, adenda, alterações e declarações anexas, abordando questões como:

  • Qual o meu limite máximo de responsabilidade? Qual a minha limitação cumulativa de responsabilidade para produtos ou territórios similares? O mesmo conjunto de questões em relação às penalizações em caso de não cumprimento dos SLA.
  • Para quais ofertas marginais ou não rentáveis o cliente tem a opção de estender, por quanto tempo e em quais produtos / serviços?
  • Posso visualizar as várias clausulas de exclusividade que tenho com os revendedores / fornecedores / clientes no que diz respeito aos territórios e produtos específicos assim como as suas datas de expiração?

Para levar a cabo uma iniciativa de qualidade de dados para dados não estruturados é necessário perceber como os utilizadores irão interagir com os dados. Na maioria dos casos tudo começará com uma “pesquisa” e depois estender-se-á para a análise de termos / campos / categorias específicos. As definições dos dados serão tão rigorosas como as dos dados transacionais – a definição de “limitação de responsabilidade” e os seus elementos associados, tais como a quantidade, prazos, excepções e excepções às excepções (por exemplo, “não obstante as excepções listadas na secção 4a,…”). O desenvolver das regras corporativas virá de uma boa compreensão dos requisitos dos utilizadores – garantias serão associadas com produtos e serviços, os produtos estarão identificados com números que, via BOM, se irão relacionar com os fornecedores, para os vários sub-componentes.

As redes sociais serão um campo similar de problemas de qualidade de dados. Inicialmente as redes sociais não são, directamente, uma ferramenta de geração de leads. Começaram apenas como criação de relacionamentos, com vários nomes, nicknames, pseudónimos, handles, hashtags, partilhas, retweets e URLs associados e endereços de email. Provavelmente não é um “alvo” para uma iniciativa de qualidade de dados.

A um determinado momento, no entanto, estas relações sociais, vão precisar de se mover para o mundo real como leads reais. O departamento de vendas vai querer um nome verdadeiro e um endereço de email viável. O seu sistema de CRM necessitará de capturar as interacções sociais da mesma forma que o faz para o marketing directo, com o perfil da rede sociais as funcionar como uma peça de valor inestimável na visão global do cliente. Para isso há dois factores importantes: a integração do CRM e das plataformas das redes sociais; e saber se a plataforma consegue responder às necessidades do CRM. Quaisquer dados que entrem no CRM exigirão o habitual tratamento de qualidade de dados.

O maior abismo entre os silos de dados não é entre o CRM de cliente e os dados estruturados do ERP mas sim entre dados estruturados e não estruturados. Não será fácil evitar os grandes silos de “maus” dados. No entanto isso é possível através do foco na integração e qualidade de dados.

Leo SadovyLeo Sadovy, director de Marketing no SAS.

Achou o tema interessante? Pode obter mais informação no whitepaper “Data Quality Challenges and Priorities“.

Deixar uma resposta