Hadoop: the next big thing

HadoopHá tecnologias que vieram para ficar. Que por vezes demoram algum tempo a serem adoptadas em massa mas que têm um valor inquestionável. O Hadoop é uma dessas tecnologias. Que as empresas começam agora, com o adensar do volume de dados que têm de armazenar e trabalhar, a olhar com outros olhos.

O Business Analytics, tendo em conta as temáticas que aborda, não poderia deixar escapar a oportunidade de entrevistar um dos especialistas, a nível mundial, da matéria: Mathias Coopmans. Com experiência em ajudar as empresas do Sudoeste da Europa a adoptar o Hadoop é frequente Mathias ser convidado a falar sobre este tema. Uma das suas últimas apresentações foi no Hadoop Summit Europe 2015, que realizou-se nos dias 15 e 16 de Abril, em Bruxelas. E no próximo dia 19 de Maio estará em Portugal para participar no CIO Executive Network. Evento que vai debater novas abordagens à tecnologia e formas de aproveitar todo o seu potencial, assim como apresentar os dados do primeiro estudo sobre a utilização de Hadoop em  Portugal.

Está a Europa (e Portugal) na fase inicial da adopção do Hadoop?

Segundo o que tenho testemunhado, a adopção do Hadoop está a avançar a várias velocidades. Houve uma primeira vaga há 4/5 anos mas que, nessa altura, não alastrou a uma escala corporativa. Houve early adopters que implementaram o Hadoop para casos muito específicos de utilização, por exemplo, na área da monitorização de grandes volumes de transacções web, para a recolha de dados de sensores em tempo real, ou mesmo para o armazenamento e análise de dados não estruturados. Hoje vemos muito mais interesse na integração do Hadoop ao nível corporativo, ligando dados de diferentes origens e combinando-os numa única visualização.

Quais as grandes vantagens da adopção desta tecnologia?

Existem múltiplas vantagens, começando pela oportunidade de redução de custos, dado que o Hadoop já provou ser muito mais barato, quando comparado com as plataformas de computação de dados distribuídos e com o armazenamento tradicional. A segunda vantagem prende-se com a escalabilidade. Todas as previsões indicam que a explosão do volume de dados e a velocidade a que estes dados necessitam de ser processados apenas começou. O Hadoop “oferece” uma plataforma de elevada escalabilidade que pode evoluir (ainda mais) consoante seja necessária mais capacidade de processamento. E por último, mas não menos importante, não nos podemos esquecer que o Hadoop é igualmente uma plataforma de processamento, não apenas uma plataforma de armazenamento capaz de processar dados de uma forma distribuída minimizando todos os movimentos de dados entre os nós.

Quais as vantagens para os early adopters? O que podemos aprender com eles?

Vimos early adopters de vários tipos. De um lado houve empresas 100% digitais tais como a Yahoo, Google, Facebook, entre outras… e, por outro, também houve early adopters em negócios mais tradicionais. Nas empresas digitais o Hadoop foi um facilitador que as ajudou a lidar com o crescimento fenomenal que registaram e isso aconteceu não só nos grandes “nomes” como a Yahoo e o Facebook mas também em pequenas startups digitais, que abraçaram, desde o primeiro dia, os benefícios desta tecnologia. Foi o caso do Photobox, do Spotify e de algumas plataformas de jogos online. Todas correm as suas plataformas em Hadoop.

O negócio mais tradicional foi mais cauteloso com o Hadoop, por vezes, num ambiente de teste de TI para experimentar a tecnologia e saber onde estava o valor. Também vi projectos bem sucedidos em empresas tradicionais que definiram o Hadoop como componente central num ambiente de laboratório de dados virados para a inovação e não misturado com os seus ambientes de produção. Estas empresas escolheram esta abordagem porque queriam obter resultados rapidamente sem passar pelos obstáculos de testar o Hadoop “contra” todos as suas necessidades de normalização de TI. Reuniram executivos, pessoas de TI e alguns cientistas de dados que colaboraram em experiências de dados, numa abordagem “fail-fast”, sendo assim capaz de executar múltiplas experiências de inovação com dados internos e externos, com ciclos iterativos muito curtos.

No entanto poucas organizações estão a usar o Hadoop como um substituto (total) do RDBMS ou, por exemplo, para substituir, por completo, uma base de dados. A abordagem “apto para o efeito” funciona melhor, mantendo o RDBMS / EDW para cargas de trabalho de relatórios standard específicos, mas com menos atributos de dados que os previstos anteriormente. Os novos formatos de dados (semi ou não estruturados) e os atributos adicionais podem trabalhados de forma mais económica na plataforma Hadoop.

Há alguma indústria que esteja a liderar?

As mesmas empresas que foram pioneiras na análise de dados são as que têm procurado, primeiro, o Hadoop. Encontramos os projectos mais maduros nas indústrias de Telecomunicações e Serviços Financeiras, dado que já digitalizaram, à algum tempo, a maioria das suas operações. Mas há outras industrias que se estão a aproximar. Rapidamente. As aplicações de sensores, a Internet das Coisas e as Ciências da Vida estão a ganhar mais maturidade e muitas vezes integram o Hadoop como um componente core das suas arquitecturas.

Como vê o Hadoop no futuro e de que forma pode ser integrado com as tecnologias de hoje?

Os projectos iniciais foram principalmente em termos de armazenamento de dados e ETL. Há mais procura para executar análises em tempo real nestes dados e na capacidade para os integrar, novamente, em tempo real. Isto traz novos desafios porque numa aplicação em tempo real o processamento é contínuo.

O Hadoop é um eco sistema em evolução rápida, com novas funcionalidades a surgirem continuamente para responder a novos desafios do mercado. À medida que o Hadoop ganha mais e mais terreno dentro da organização (e com isso mais atenção) surgem novos desafios para uma adopção por parte de utilizadores menos especializados. Uma iniciativa como a Open Data Platform (ODP – http://opendataplatform.org/) é ilustrativa da crescente maturidade de uma procura, por parte do mercado, por mais estandardização nos componentes core do Hadoop, para gerar um aumento da gestão e interoperabilidade da implementação do Hadoop e da infra-estrutura existente.

Estão a chegar ao mercado ferramentas que facilitarão a obtenção de dados com Hadoop sem ter de ter muito conhecimento especializado. Porque o objectivo é obter mais respostas (de negócios) dos seus dados e não o adquirir conhecimentos (técnicos) de Hadoop!

Mathias Coopmans

Mathias Coopmans

Mathias Coopmans
Business Development Manager – SAS
Curiosidade de negócios e conhecimentos técnicos. É esta a combinação poderosa oferecida por Mathias Coopmans, um especialista em temas quentes como big data, business analytics e Hadoop. Este especialista do SAS gere uma equipa dedicada a ajudar empresas do Sudoeste a Europa a obter o melhor valor do Hadoop e a integrar esta tecnologia nos seus negócios.

Deixar uma resposta