Apache Avro

Definição - o que significa o Apache Avro?

Apache Avro é uma serialização de dados e estrutura de chamada de procedimento remoto desenvolvida dentro do projeto Apache Hadoop, onde fornece um formato de serialização para obter dados persistentes e um formato de fio para fornecer comunicação entre nós Hadoop, bem como conectar programas clientes ao Hadoop Serviços.

Avro usa o formato JSON para definir protocolos e tipos de dados, bem como serializa dados em um formato binário compacto.

Definirtec explica Apache Avro

Apache Avro é uma estrutura de serialização de big data que produz dados em um formato binário compacto que não requer geração de código ou objetos proxy.

Ele é usado como um componente de serialização de dados para Apache Hadoop. Avro trabalha com o conceito de esquemas. Quando os dados Avro estão sendo lidos, o esquema que foi usado durante a gravação desses dados específicos está sempre presente.

Isso permite que cada conjunto de dados sem sobrecargas por valor, o que torna a serialização rápida e relativamente pequena em tamanho. E como os dados e seus esquemas são totalmente autodescritivos, isso facilita o uso com linguagens de script dinâmicas.

Quando os dados Avro são armazenados em um arquivo específico, o esquema também é armazenado com eles para ser posteriormente processado por outro programa. Portanto, se um programa que lê os dados espera outro esquema, isso pode ser facilmente resolvido, pois os dois esquemas estão presentes.

Euro fornece:

  • Um formato de dados binários compacto e rápido

  • Estruturas de dados ricas

  • Um arquivo de contêiner para armazenar dados persistentes

  • Chamada de procedimento remoto (RPC)

  • Integração com linguagens dinâmicas

A geração de código não é um requisito para ler ou gravar arquivos de dados ou para usar ou implementar protocolos RPC.