powerbook_blog

klein, praktisch, unverdaulich seit 2004

[blog]notiz Nutch – es muss nicht immer Google sein

| 1 Kommentar

Bei heise.telepolis kann man ein Interview mit Doug Cutting lesen, der mit dem Nutch-Projekt am Monopol von Google kratzen will:

Google wurde immer mehr kritisiert, weil die Suchmaschine von selbsternannten Suchmaschinenoptimierern und anderen Spammern bombardiert wird.  Doug Cutting ist ein Experte, der seit 15 Jahren im Bereich der Informationsgewinnung arbeitet, und er will es besser machen. Er sucht im Rahmen des  Nutch-Projekts zusammen mit Hunderten von Entwicklern nach einer transparenteren Möglichkeit des Suchens mit einer Open-Source-Suchmaschine. Sein Ziel ist es, den Zugang zu den gegenwärtig meist proprietär gehaltenen Suchtechniken zu öffnen, die Forschung zu fördern und die Suche im Web zu verbessern. Cutting arbeitet als Betreiber des Projekts von seinem Heimbüro im Silicon Valley aus und wird teilweise finanziell von Yahoo, dem größten Konkurrenten Googles, unterstützt. Erfahrungen hat er in seinen früheren Tätigkeiten beispielsweise bei Xerox PARC, Apple und Excite gesammelt.

Nett. Wirklich. Aber so ganz verstehe ich nicht, wie das funktionieren soll?

Nutch ist eine Software, die man sich herunterladen kann, um eine Suchmaschine für das Web einzurichten. Nach dem Download muss man erst ein paar Einstellungen machen, also wo der Crawler beginnen oder welche Domains er besuchen bzw. nicht besuchen soll. Dann lässt man den Crawler eine Weile laufen. Wie lange, hängt davon ab, welche Art Suchsite man einrichten will. Bei einer Intranet- oder Nischensuchmaschine benötigt ein einzelner Computer für einen Crawl vielleicht nur ein paar Stunden, während die Durchsuchung des ganzen Web für viele Computer eine Woche oder länger dauern kann. Nach dem Crawl setzt man Nutch ein, um die gefundenen Seiten zu indexieren und die eigene Suchseite zu starten. Für Nutch ist es das Ziel, sowohl für Intranets und Nischen leicht einsetzbar zu sein, als auch komplexe Installationen für das gesamte Web zu ermöglichen.

Das verstehe ich ja, aber steht dann irgendwo|wann noch ein Server der alles kleinen Nutch-Indizies einsammelt und unter einer Oberfläche vereint (wer bezahlt denn dann den Speicherplatz) oder gehts nur drum, dass man zukünftig selbst in der Lage sein soll, seine eigene kleine Suchmaschine zu betreiben (wer soll denn dann eben diese kleine Suchmaschine finden – Google? )?

Naja, mal im Hinterkopf behalten.

Ein Kommentar

  1. Cutting == Suchmaschinenguru Doug Cutting ist der Mastermind hinter dem OpenSource Projekt Lucene. (Siehe http://jakarta.apache.org/lucene/docs/whoweare.html) Cutting hat viele Jahre Erfahrung mit dem theoretischen Hintergrund von Suchalgorithmen, er war z.B. auch an der Sherlock-Engine in MacOS 8/9 beteiligt.

    Technologisch betrachtet ist Lucene der Knüller, wenn er auf der Basis Nutch weiterentwickelt, dann sollte man das sicherlich mal anschauen. Immerhin gibt es ja einen großen Markt für Suchmaschinen, gerade in umfangreichen Intranets und Netzwerken größerer Institutionen ist sowas wichtig.

Schreib einen Kommentar

Pflichtfelder sind mit * markiert.