Processamento de Dados Massivos (Big-Data) além do Hadoop/MapReduce

Dorgival Olavo Guedes Neto
A explosão do volume de dados acessíveis através da Internet e o aumento da capacidade de processamento disponível para os usuários criou nos últimos anos um grande interesse por ambientes de processamento de dados massivos. Entre esses ambientes, o Apache Hadoop se tornou o mais conhecido e adotado. Entretanto, com o passar do tempo, tornou-se claro que Hadoop não é a solução ideal para todos os problemas, apesar de oferecer um bom ponto de partida para a criação de novos ambientes. Este mini-curso pretende apresentar os elementos principais do Hadoop e mostrar como outros ambientes de processamento podem ser implementados mais facilmente fazendo uso de funcionalidades criadas por ele. Para exemplificar, será mostrado como os ambientes Giraph, Spark e Watershed utilizam partes do Hadoop para prover diferentes modelos de programação. O objetivo será a discussão dos aspectos de desenvolvimento de sistemas distribuídos em geral e não dos detalhes de programação de cada ambiente, para apresentar conceitos de sistemas que podem ser de interesse tanto a principiantes quanto a desenvolvedores já com alguma experiência com Hadoop, por exemplo.