Você será redirecionado em 8 segundos

CRN agora é IT Forum 365. Uma nova comunidade onde você encontrará todo o conteúdo de qualidade a que estava habituado mas com novas possibilidade de interação com os participantes desse novo mundo. Venha participar deste novo momento na comunidade de TI com interação, colaboração, apresentações e muito mais. Faça seu cadastro e seja bem-vindo!

IT Mídia
Notícias em destaque
RSS
por Doug Henschen | InformationWeek EUA
Mercado | 15 de março de 2013

Conheça os últimos seis avanços em Big Data

Foi uma grande semana para o Big Data, com a O’Reilly’s Strata Conference, em Santa Clara, Califórnia, borbulhando com tantos anúncios. Três desses desenvolvimentos parecem verdadeiros marcos, solucionando os problemas mais complexos para a comunidade de Big Data.

Aqui está um breve resumo sobre as principais novidades da semana, além de uma breve contextualização sobre cada desenvolvimento.

EMC traz análise de SQL para Hadoop

O processamento baseado em lote do MapReduce no Hadoop é lento e complicado, por isso, muitas empresas, incluindo Cloudera, Hadapt e MapR, estão trabalhando em formas de trazer análises de SQL familiares e dominantes ao Hadoop. Uma nova distribuição da EMC, Pivotal HD, para Hadoop, que deve ser lançada no final de março, promete trazer a amplitude das capacidades de pesquisas em SQL padrão para o Hadoop Distributed File System (HDFS), pelo banco de dados Greenplum, da EMC.

Devido a sua posição como fornecedora líder de suporte e software Hadoop, a Cloudera – com seu Projeto Impala – tem sido considerada a principal candidata a trazer SQL para o Hadoop. Mas o Impala ainda está em beta. Ao fundir seu banco de dados com o HDFS, a EMC promete entregar o melhor em pesquisa estruturada e ferramentas familiares de BI, junto com a escalabilidade e flexibilidade do Hadoop.

Os detalhes disponíveis sobre o Pivotal são superficiais e os competidores estão levantando suspeitas de que não se trata de código aberto e que irá criar uma camada redundante de armazenamento, mas isso me soa como tentativas fracassadas de gerar medo, incertezas e dúvidas. A análise real irá se iniciar quando a EMC lançar o software e a documentação de suporte, e poderemos, então, esperar que a adoção dos consumidores comprove seu valor (ou qualquer problema ainda desconhecido).

Intel tem sua importância por trás do Hadoop

Quem sabia que a Intel tem sua própria distribuição Hadoop há dois anos? A empresa revelou, esta semana, que tem colaborado com o Yahoo no Hadoop desde 2009, e trabalhado com grandes empresas na China, desde 2011. Com uma terceira geração de distribuição Hadoop anunciada na última terça-feira, a Intel disse que está se aproveitando de seus processadores Xeon como nenhum outro fornecedor de software. Por exemplo, a Intel é a primeira a utilizar as Instruções de Padrão de Criptografia Avançada disponíveis em seus chips, um avanço que deve aprimorar a segurança dos dados sem interferir no desempenho. E, por meio da otimização de redes e I/O assistida por chip, a Intel disse que análises que antes levavam quatro horas agora podem ser concluídas em sete minutos.

Como a Cloudera, MapR e outros fornecedores de software Hadoop, a Intel está fornecendo implementação de cluster e software de gerenciamento únicos e próprios, mas, de qualquer forma, disse que está contribuindo com a comunidade de código aberto com a otimização de chips. A Intel anunciou, também, parceiros Hadoop, incluindo Cisco, Cray, Dell, Red Hat, SAP e Teradata. A Pentaho conseguiu que a Intel agrupasse seu software para gerenciamento e integração de dados com a suíte de análises e BI da Pentaho em sua distribuição Hadoop.

Apesar de a Intel insistir em garantir que pretende cooperar, e não competir com empresas como a Cloudera ou Hortonworks, ainda não está claro para mim como mais uma distribuição Hadoop não irá sujar as águas do mercado. Contudo, ter uma empresa tão grande como a Intel por trás do Hadoop é mais um sinal de que se trata de uma plataforma de dados que veio para ficar.

Revolution traz análises preditivas para big data

As vantagens das análises in-database são bem conhecidas: analistas economizam muito tempo e esforços fazendo com que modelos e análises de dados funcionem dentro do warehouse de dados em vez de moverem enormes conjuntos de dados para servidores de análise separados e, geralmente, com menos potência. Aproveitando o poder do processamento paralelo maciço dentro do banco de dados, os analistas podem trabalhar com mais velocidade e rodar muito mais modelos para análises mais detalhadas com menos tempo e esforço.

A Revolution Analytics anunciou que está trabalhando em análises in-Hadoop, e diz que as vantagens vistas nas abordagens in-database serão aplicadas. Muitas empresas já fazem parte dos trabalhos analíticos em Hadoop, mas a Revolution garante que será a primeira a trazer todo o fluxo de trabalho da análise preditiva para o Hadoop.

“Isto irá permitir que as empresas criem modelos preditivos em Hadoop sem precisar extrair os dados, e quando for Big Data, é quando você realmente pena com os atrasos da movimentação dos dados”, disse Michele Chambers, diretora de estratégia da Revolution, em entrevista pra a InformationWeek EUA. A Revolution acessa dados tanto do HDFS quanto HBase e está utilizando streaming de dados e processamento in-memory por nódulos Hadoop em uma “abordagem bem diferente dos outros fornecedores”. Os resultados, segundo Chambers, virão em forma de conveniência e economia de tempo para os analistas que, do contrário, gastariam tempo e esforços transferindo conjuntos de dados entre plataformas.

A SAS já havia anunciado um servidor LASR e o aplicativo relacionado, Visual Analytics, que pode rodar no HDFS, mas eu ainda preciso conversar com consumidores que usam esse produto. Também não está claro para mim se pode rodar em qualquer cluster Hadoop ou se simplesmente usa o HDFS para criar uma camada proprietária de dados que só pode ser utilizada pelas ferramentas SAS.

Outro ponto aqui é que a Revolution Analytics é parceira de apoio da distribuição Pivotal HD, da EMC. Ainda precisamos ver se a abordagem in-Hadoop, da Revolution, trará vantagens que outras não superarão.

Cloudera torna Hadoop mais seguro.

Agora vamos entrar no reino das declarações incrementais, do tipo que temos visto vindo de diversos fornecedores de plataforma de big data. O tema é aprimoramento em confiabilidade, gerenciabilidade, controle de complicance e mais, com fornecedores novatos em Big Data oferecendo, mais ou menos, as funcionalidades já disponibilizadas em plataformas mais maduras. No caso em questão, a Cloudera anunciou, na semana passada, os novos Cloudera Navigator, Cloudera Enterprise BDR e a versão 4.5 do software Cloudera Manager.

O Cloudera Navigator é uma ferramenta pra gerenciamento de dados em Hadoop completamente nova, que oferece controle de acesso de dados, provisionamento e capacidades de auditoria. Coisas essenciais para a segurança – e privacidade – de dados sigilosos de saúde, serviços financeiros e órgãos governamentais, ou seja, é mais como trazer um requisito básico atrasado do que uma oferta revolucionária ao Hadoop. O mesmo é válido para o BDR, que oferece melhores capacidades de backup e recuperação de desastre. O Cloudera Manager 4.5 suporta updates, então, agora, você pode realizar upgrades no software Hadoop sem precisar derrubar todo o cluster. A atualização também melhora as capacidades de monitoramento.

Mais uma vez, tudo isso serão demandas de grandes empresas para o Hadoop, conforme os aplicativos saem do piloto para a produção. A Cloudera está executando requisitos óbvios em vez de oferecer capacidades pioneiras e grandes avanços.

Hortonworks e Microsoft entregam o que prometem

A Hortonworks e a Microsoft anunciaram, em 2011, que iriam desenvolver, em colaboração, uma distribuição Hadoop capaz de rodar em Windows. Em outubro passado, eles lançaram uma versão beta daquele software. E agora, os parceiros apresentaram, formalmente, o Hortonwork Data Platform para Hadoop.

O principal atrativo para clientes Microsoft, além de rodar em Windows, é que a distribuição é integrada com o Microsoft Systems Center, para controle administrativo, e com o Active Directory, para controle de acesso e segurança. Funciona, também, com a plataforma de virtualização da Microsoft, incluindo Hyper-V e a fábrica de virtualização do System Center, tornando-a a primeira distribuição a rodar Hadoop em infraestrutura virtualizada. A Hortonworks poderia enfatizar que é 100% código aberto, mas não há muito mais a dizer a não ser “finalmente, chegou”.

MapR e Google colocam os motores em movimento

A fornecedora de software Hadoop orientada a desempenho, MapR e o Google anunciaram que alcançaram um novo recorde mundial para o MinuteSort, ordenando 1.5 terabyes em 60 segundos usando o Google Compute Engine e MapR Distribution of Apache Hadoop. O recorde anterior, do Yahoo com o software de código aberto Apache, era de cerca de 0.5 terabytes, e foi alcançado com 3.452 servidores físicos, versus 2.103 servidores virtuais/em nuvem utilizados pelo Google Compute Engine.

Isso diz mais sobre o serviço de nuvem do Google ou sobre o software da MapR? “Isso mostra a habilidade de utilizar o Google Compute Engine para conseguir uma computação com desempenho muito alto, muito rápido e de forma muito consistente, e vemos incrível desempenho de IO”, disse Marc Cohen, engenheiro de desenvolvimento de programas do Google, para a InformationWeek EUA.

Jack Norris, VP de marketing da MapR, apressou-se para acrescentar que a arquitetura da MapR – que utiliza Network File System no lugar de HDFS e implementa outros truques proprietários de desempenho – se aproveita melhor do poder do Google Compute Engine do que poderiam as arquiteturas Hadoop rivais. Por enquanto, a MapR tem parceria exclusiva com o Google. Infelizmente, o serviço que roda MapR Hadoop em Google Compute Engine ainda está em versão de lançamento limitado, e Cohen não quis comentar sobre quando será completamente disponibilizada.

Um teste de referência tem alguma coisa a ver com o uso do Hadoop no mundo real? “A classificação é um caso especial de uma grande tarefa de MapReduce, mas qualquer tarefa de MapReduce envolve muito paralelismo”, disse Cohen. “Requer a coordenação de milhares de máquinas, então estamos orgulhosos do fato de termos feito isso com segurança e muita velocidade”.

E estes foram os seis anúncios realizados durante o Strata, desde o possivelmente enorme – se ele cumprirem o que prometem – até o já esperado.

Ainda estamos em um estágio de Big Data em que todos veem muito potencial, mas parece que estamos sempre a meses, senão anos, de ver a prova real, no mundo real, de que os avanços serão tão incríveis quanto os anúncios sugerem.

 

Parceiros

Portais: IT Mídia | IT Web | Saúde Web

Fóruns: IT Forum | IT Forum + | IT Business Forum | Saúde Business Forum