Como começar com Hadoop

HadoopHoje fala-se muito em Hadoop. Mas será que todas as empresas devem avançar e aderir a este novo ecossistema? Quais os passos a tomar para tomar o melhor partido e aproveitar todo o seu potencial?

Fern Halper, directora do TDWI Research for Advanced Analytics elaborou uma ckecklist, com oito passos, que servem de guia a quem entra neste mundo novo.

1) Primeiro há que compreender exactamente o que é o Hadoop.

Perceber que o Hadoop tem duas componentes: um sistema low-cost para armazenamento de dados (o sistema de ficheiros distribuídos) e um mecanismo de processamento que distribui os dados em secções gerenciáveis para consumo ou processamento, chamado de MapReduce. Por outras palavras, o Hadoop é uma solução “barata” para armazenar e processar grandes volumes de dados, nomeadamente semi-estruturados e não estruturados.

No entanto, como tudo, tem as suas limitações, nomeadamente as relacionadas com as analíticas avançadas. O que tem levado ao aparecimento de um grande ecossistema, constituído por ferramentas avançadas, à sua volta.

2) Considere o recurso às analíticas in-memory.

Estas processam os cálculos matemáticos e de dados directamente na RAM em vez de no disco, o que evita o tempo despendido entre input e output. Técnicas analíticas avançadas, como as estatísticas avançadas, Data Mining, Machine Leraning, Text Mining e sistemas de recomendação podem beneficiar o processamento in-memory porque permitem uma análise mais rápida e uma melhor intereactividade com os dados.

Atenção que o MapReduce não é o mais indicado para analíticas interactivas. Pelo que muitos fornecedores disponibilizam processamento in-memory para o Hadoop.

3) Equacione alterar o processo de preparação de dados.

Para poder aproveitar o Big Data as empresas necessitam de técnicas específicas, que façam uma eficiente exploração e verificação dos dados, de forma a determinar as variáveis (correctas) a utilizar aquando da criação de cenários preditivos. O que obriga a uma mentalidade diferente de quem apenas usa os dados para efectuar relatórios (e onde os dados já estão predefinidos).

E aqui o tema da preparação e integração dos dados, com ênfase para a qualidade dos mesmos, é extremamente importante.

4) Explore os dados para obter novos conhecimentos.

Brinque com os dados. Conheça a “matéria bruta” que tem ao seu alcance. E descubra novas perspectivas. Pode fazê-lo como parte integrante da preparação dos dados ou apenas como uma “aventura”, uma forma de descobrir mais sobre o seu negocio.

Um exemplo? Experimente fazer visualizações simples ou executar estatísticas descritivas para determinar o que está nos dados ou identificar variáveis de interesse para uma análise mais avançada. A descoberta torna-se mais interessante se recorrer a um fornecedor com funcionalidades de consulta, visualização e estatística descritiva.

5) Compreenda analíticas avançadas.

Na verdade aliar o Big Data com processamento in-memory significa que “não há limites” ao tipo de analítica que se pode efectuar nos e com os dados. Mas se o objectivo é ir mais além de uma simples análise descritiva o melhor é ter um programa que inclua Data Mining, Text Mining e Machine Learning. As utilizações mais “populares” incluem detecção de padrões, previsão, recomendação e optimização.

6) Não ignore os dados de texto – mesmo porque a maioria dos dados num cluster Hadoop são de texto.

O que faz sentido uma vez que o HDFS é um sistema de arquivos, usado para armazenar dados não estruturados e semi-estruturados (incluindo texto). Um dos principais benefícios é a utilização de todos os dados para uma visão mais abrangente do que se passa com os nossos clientes, as operações e muito mais.

E aqui há estratégias diversas. Há empresas que usam o código para extrair pedaços de informação e outras que usam analíticas de texto comercial (onde se inclui o processamento da linguagem e técnicas estatísticas) para extrair e estruturar os dados de forma a combiná-los com dados estruturados e criar modelos preditivos (recorrendo a técnicas de analíticas avançadas).

Nota: a informação extraída do texto fornece (na maioria das vezes) conteúdo adicional (importante) para estes modelos.

7) Operacionalize as analíticas.

Apenas se pode criar valor de negócio com as analíticas de Big Data se os resultados do modelo estiverem integrados com os processos de negócio, para ajudar na tomada de decisão. Este é um passo crítico em todos os projectos analíticos. A forma mais eficiente de operacionalizar analíticas preditivas é integrar os modelos directamente no armazenamento de dados operacional, conhecido como “in-Hadoop scoring.”

8) Avalie os seus conhecimentos.

A dimensão humana pode ser tão importante como as tecnologias seleccionadas para extrair valor do Hadoop. E são necessários talentos específicos para uma (boa) analítica de Big Data. Um papel que surgiu recentemente foi o do Data Scientist, que combina diferentes skills, essenciais para processar, analisar, operacionalizar e comunicar dados complexos. Entres eles incluem-se a ciência de computação, modelagem, pensamento criativo e comunicações. Se não conseguir encontrar todas estes conhecimentos numa única pessoa tente tê-los entre os vários membros da sua equipa.

Se ficou interessado com este tema, sugerimos a leitura do relatório integral onde encontrará informação mais detalhada sobre cada um destes 8 pontos “Eight Considerations for Utilizing Big Data Analytics with Hadoop – A TDWI Checklist Report” (download gratuito).

Fern HalperFern Halper, é directora na TDWI Research para analíticas avançadas, com foco em analíticas preditivas, analise de redes sociais, analíticas de texto, cloud computing, e outras abordagens à analítica de big data. Com mais de 20 anos de experiência em dados e analises de negócios é co-autora da série de livros “Dummies”.
Para segui-la no Twitter: @fhalper.

Este artigo foi originalmente publicado no SAS Insights

Deixar uma resposta