Sistema de arquivos distribuídos hadoop (hdfs)

Definição - O que significa o Hadoop Distributed File System (HDFS)?

O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído executado em hardware padrão ou de baixo custo. Desenvolvido por Apache Hadoop, o HDFS funciona como um sistema de arquivos distribuído padrão, mas fornece melhor rendimento de dados e acesso por meio do algoritmo MapReduce, alta tolerância a falhas e suporte nativo de grandes conjuntos de dados.

Definirtec explica o Hadoop Distributed File System (HDFS)

O HDFS armazena uma grande quantidade de dados colocados em várias máquinas, normalmente em centenas e milhares de nós conectados simultaneamente, e fornece confiabilidade de dados ao replicar cada instância de dados como três cópias diferentes - duas em um grupo e uma em outro. Essas cópias podem ser substituídas em caso de falha.

A arquitetura HDFS consiste em clusters, cada um dos quais acessado por meio de uma única ferramenta de software NameNode instalada em uma máquina separada para monitorar e gerenciar o sistema de arquivos do cluster e o mecanismo de acesso do usuário. As outras máquinas instalam uma instância do DataNode para gerenciar o armazenamento do cluster.

Como o HDFS é escrito em Java, ele tem suporte nativo para interfaces de programação de aplicativos (API) Java para integração e acessibilidade de aplicativos. Ele também pode ser acessado por meio de navegadores da Web padrão.