Apache Nutch

Definição - o que significa o Apache Nutch?

Apache Nutch é um produto de software rastreador da web que pode ser usado para agregar dados da web. Ele é usado em conjunto com outras ferramentas Apache, como Hadoop, para análise de dados.

Definirtec explica Apache Nutch

Apache Nutch é um produto de código aberto licenciado pela Apache Software Foundation. Esta comunidade de desenvolvedores possui licenças para uma variedade de ferramentas de software Apache que podem classificar e analisar dados. Uma das tecnologias centrais é o Apache Hadoop, uma ferramenta analítica de big data muito popular na comunidade empresarial.

Junto com ferramentas como Apache Hadoop e recursos para armazenamento de arquivos, análise e muito mais, a função do Nutch é coletar e armazenar dados da web por meio do uso de algoritmos de rastreamento da web.

Os usuários podem tirar proveito de comandos simples no Apache Nutch para coletar informações em URLs. Os usuários normalmente usam o Apache Nutch junto com outra ferramenta de código aberto, uma estrutura chamada Apache Solr, que pode atuar como um repositório para os dados coletados com o Apache Nutch.