Nutch
Nutch ist ein Java-Framework für Internet-Suchmaschinen. Die Software ist Open-Source und wird innerhalb der Apache Software Foundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucene (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop (Skalierung).
Nutch
| |
---|---|
Basisdaten
| |
Entwickler | Apache Software Foundation |
Erscheinungsjahr | 21. Juli 2011[1] |
Aktuelle Version | 1.20[2] (24. April 2024) |
Betriebssystem | Plattformunabhängig |
Programmiersprache | Java[3][1] |
Kategorie | Crawler, Parser und Suchmaschine. |
Lizenz | Apache-Lizenz |
deutschsprachig | nein |
nutch.apache.org |
Nutch kann beliebig große Datenmengen durchsuchen. An firmenspezifische Bedürfnisse lässt es sich durch seine Plug-in-Architektur anpassen – bspw. an weitere Dokumentformate.
Das deutsche Bundesamt für Verbraucherschutz und Lebensmittelsicherheit betrieb die auf Nutch basierende „Verbraucher-Suchmaschine“ Clewwa. Auch die Suchmaschine Wikia Search setzte auf der Technologie von Nutch auf.
Nutch wird zurzeit in 2 Versionen gepflegt[4]
- 1.x: Ist ein fertiger Crawler, welcher eine sehr feine Konfiguration ermöglicht und auf die Datenstrukturen von Apache Hadoop setzt, er soll ideal für Batch-Verarbeitung sein
- 2.x: Wird als Alternative zur Version 1.x angeboten, der Hauptunterschied liegt im Speicherbereich, dieser wurde abstrahiert und nutzt Apache Gora um Objekte zu verknüpfen. So wurde die Flexibilität erhöht, was (z. B. Status, Inhalte, Links, verarbeiteter Text …) gespeichert werden kann und wie die Speicherung z. B. in NoSQL-Lösungen erfolgt.
Weblinks
Bearbeiten- Offizielle Website (englisch)
- Wiki (englisch)
- Anwendungsbeispiele
Einzelnachweise
Bearbeiten- ↑ a b projects.apache.org. (abgerufen am 8. April 2020).
- ↑ Apache Nutch Project Management Committee: Downloads. (englisch, abgerufen am 5. Januar 2025).
- ↑ The nutch Open Source Project on Open Hub: Languages Page. In: Open Hub. (abgerufen am 18. Oktober 2018).
- ↑ Home - NUTCH - Apache Software Foundation. Abgerufen am 11. März 2020.