IBM Confia no Kubernetes para Estratégia Avançada de Análise
12 de dezembro de 2018PostgreSQL é classificado como melhor SGBD do ano pela segunda vez consecutiva.
18 de janeiro de 2019Apache Spark, Solr, Pulsar e Beam Recebem prêmio de melhores software para armazenamento e análise de dados.
No Bossie 2018 Award – Best of Open Source Software for Data Storage and Analytics, da revista InfoWorld, um dos maiores veículos que falam de tecnologia, com foco nas novas tecnologias surgindo para o meio empresarial, no planeta, esses quatro projetos Apache foram premiados.
Cada um teve seu prestígio exposto de forma diferente, mas todos foram igualmente reconhecidos.
Apache Spark
O Apache Spark continua no centro do universo de análise de dados, sendo recomendado para computação distribuída, Data Science, Machile Learning, entre outros. Com o lançamento da versão 2.3 em fevereiro de 2018, o Spark continuo a desenvolver, integrar, e melhorar sua API para streaming estruturado. Além disso, agora existe um escalonador para o Kubernetes, o que faz ficar mais fácil executar o Spark diretamente em containers. De forma geral, a versão atual do Spark traz uma sensação que ele foi polido e tunado no seu interior, e isso é refletido para o usuário.
Apache Solr
Normalmente se pensa que o Apache Solr é uma engine de busca inserida na tecnologia de indexação do Apache Lucene, mas ele, em essência, é um database de documentos orientados a texto. É excelente tanto para achar uma agulha num palheiro quanto para executar queries espaciais.
Com a atualização recente do Solr 7 series, a plataforma é extremamente veloz, até mesmo para queries analíticas. É possível juntar valores de documentos e retornar os valores em menos de um segundo. Tem um ótimo suporte para logs e dados de eventos. Seu Disaster recovery é agora bidirecional. E um novo recurso dele é o auto-scale que possibilita um simples gerenciamento mesmo com um crescimento muito grande do cluster.
Apache Pulsar
O Apache Pulsar veio para roubar a coroa do Apache Kafka no quesito de serviço de mensagens. O Pulsar tem maior potencial de throughput e menor latência que o Kafka em várias situações, e a sua API é compatível com a do Kafka, que possibilita os desenvolvedores a trocarem o Kafka pelo Pulsar com relativa facilidade. Mas talvez a maior vantagem do Pulsar é que ele oferece um conjunto operacional muito mais robusto e fluido que o Kafka, especialmente em termos de endereçamento de observabilidade, geo replicação e problemas de multitenacidade. Empresas que têm problemas de gerenciar grandes clusters de Kafka terão facilidade para utilizar o Pulsar.
Apache Beam
A distinção de processamento em batch e streaming vem desaparecendo nos últimos anos. Os lotes de dados dos batches estão cada vez menores, se tornando micro-batches, que se transformando em lotes de um, se tornam streamings. Um grande número de diferentes arquiteturas de processamentos de dados têm tentado mapear essa transição pensando em um paradigma de programação. O Apache Beam é a solução do Google, que foi transformado em um projeto Apache, para resolver esse problema. Ele combina um modelo de programação e diversos kits de desenvolvimento de linguagens específicas, que permitem a definição de pipelines de processamento de dados. Depois de definidas, esses pipelines podem ser executados em diferentes frameworks, como Hadoop, Spark e Flink.
Fontes: