banner

blog

Jun 28, 2023

Apache Iceberg muda tudo: o que há por baixo?

O formato de tabela Apache Iceberg de código aberto e alto desempenho transformou o uso de data lake e a análise de dados para sempre, tornando os data warehouses tradicionais menos atraentes, observa Jason Hughes, da Dremio.

Em meio a volumes cada vez maiores de dados, não é segredo que as empresas estão lutando para obter valor imediato desses dadosOpens a new window – enquanto tentam simultaneamente implementar sistemas que possam responder aos seus usos futuros. O que está no horizonte pode ser difícil de prever. As plataformas de dados devem satisfazer esta dupla necessidade e a tecnologia central está a impulsionar a sua evolução para o fazer. O Apache Iceberg de código abertoOpens a new window, um formato de alto desempenho para tabelas analíticas, está mudando a forma como as empresas acessam os dados e os colocam para trabalhar, trazendo flexibilidade fundamental para a análise de dados.

O Iceberg permite o desempenho desimpedido do data warehousing para o data lake, já que os data warehouses tradicionais se tornaram mais um albatroz do que um barco salva-vidas para empresas que buscam análises econômicas. Tendo origem na engenharia da Netflix, permitindo-lhes tratar o Amazon S3 como seu data warehouse, o Iceberg tem sido um projeto de código aberto pronto para produção usado para impulsionar a análise de dados em empresas como Netflix, Adobe, Apple e muitas outras há muito tempo. Além de sua comprovada prontidão para produção, suas APIs também têm garantido compatibilidade, mas seu lançamento 1.0 no final do ano passado consagrou essa compatibilidade como uma garantia e reforçou seu status para armazenamento de dados em nível de produção e casos de uso de ciência de dados. O Iceberg cresceu a um ritmo tremendo, com 1.559 solicitações pull mescladas nos últimos 12 meses, e o desenvolvimento do software por meio da Apache Software Foundation é atualmente apoiado pela Amazon, Snowflake, Google, Tabular e Dremio, entre outros.

Um formato de tabela, como o Iceberg, é um componente crítico das novas arquiteturas lakehouse que permitem cargas de trabalho analíticas executando consultas em grandes volumes de dados em armazenamentos de objetos em nuvem, como S3 e ADLS. As tabelas Iceberg facilitam as operações de linguagem de manipulação de dados (DML) diretamente nesses armazenamentos de objetos em nuvem. Eles podem ser otimizados de muitas maneiras diferentes, como particionamento, classificação e índices, para permitir organização e processamento eficiente de dados em grande escala. Ao mesmo tempo, os usuários obtêm uma experiência fácil porque não precisam conhecer os detalhes subjacentes de uma tabela para aproveitar os benefícios de desempenho.

A ascensão do Iceberg como padrão de formato de tabela aberta por trás dos lakehouses mudou o significado de criar e executar infraestrutura de dados moderna. Em última análise, esta nova abordagem afundará os armazéns de dados que exigem movimentação constante de dados e que geram múltiplas cópias de dados, prendendo as empresas a soluções proprietárias, muitas vezes dispendiosas. Se você tiver duas soluções, ambas capazes de suportar cargas de trabalho equivalentes, mas uma fechada e a outra aberta e menos dispendiosa do ponto de vista de tempo, recursos e licenciamento, o histórico da tecnologia geralmente mostra que a última vence.

Veja mais: Guia do líder para melhorar a visualização de dados e o design do painel

Durante décadas, os data warehouses foram fundamentais para consultar grandes quantidades de dados históricos estruturados de diversas fontes e para permitir que cargas de trabalho analíticas fossem executadas rapidamente. Eles ofereceram políticas eficazes de governança de dados para garantir a disponibilidade, usabilidade e segurança dos dados. Eles ofereceram recursos tecnológicos para permitir práticas recomendadas, como dimensões de mudança lenta e gerenciamento de dados mestres. Mas os dados em um warehouse são reféns de um sistema específico do fornecedor que somente o mecanismo de computação do warehouse pode usar. O armazenamento e/ou a computação nesses sistemas são caros – geralmente um, se não ambos – e esse custo resulta em uma escolha difícil para as organizações: executar todas as cargas de trabalho que a empresa precisa com um custo alto ou não executar todas as cargas de trabalho que o negócio precisa. necessidades do negócio a um custo menor. Os data warehouses também impedem que as organizações executem as cargas de trabalho de aprendizado de máquina de que precisam e não conseguem lidar bem com as cargas de trabalho de dados semiestruturados e não estruturados, se é que o fazem, o que está se tornando uma expectativa no mercado.

COMPARTILHAR