YaCy die freie Suchmaschine als Recherche Datenbank nutzen


Es ist nicht das erste Mal, dass ich YaCy auf meinem Rechner installiere. Die Idee: Die Suchmaschine für die eigene Recherche einsetzen! – Aber wie? Nun natürlich bleibt es einem nicht erspart selbst im Internet zu Suchen. Dies erfolgt mit der gewohnten Suchmaschine Deiner Wahl, also Google, Bing oder ask usw. Wenn ich einen interessanten Artikel sehe, speichere ich mir die URL in einer Liste. Zusätzlich kann man sich noch die Seite ansehen und schauen, ob mehr interessante Artikel auf der Seite sind. Wenn ja, dann kann man nachher nicht nur den Artikel selbst, sondern noch mehr Teile der Seite erfassen. Hat man eine Liste mit URLs zu einem Thema zusammen, geht’s an die lokale Suchmaschine auf dem eigenen Rechner.
Die URLs können jetzt einzeln oder als „Bulk“ eingegeben werden. Und wie immer gilt auch hier, mehr Arbeit verfeinert die Ergebnisse. Wichtig ist eine Einstellung des Site Crawlers vor der Erfassung. Hier kann man immer nur den einen Artikel erfassen und keine weiteren Seiten, sonst landet sehr viel unnötiger Datenmüll in der lokalen Suchmaschine, und das wollen wir doch nicht.

Einstellungen:

  • Montitoring -> Crawler Monitor = Geschwindigkeit beim Crawlen begrenzen, sonst wird man schnell von Webseiten gesprerrt
  • Produktion -> Advanced Crawler für das Crawlen von einzelnen URLs verwenden
  • Liste der URLs in das Formular einfügen
  • Carwler Filter einstellen – Maximum Pages per Domai sezten. 1 für nur den Artikel!
  • Bereiche können durch die übrigen Angaben eingegrenzt werden. Hier am besten ein wenig herumprobieren, bis man das beste Ergebnis für sich hat.
URLs einfügen

URLs einfügen

Expert Crawler Settings Screen Shot

Crawler Settings

Expert Crawler benuten

Interessante URLs nochmals durchgehen

Hat man in seiner Liste Seiten die sich z.B. ausschließlich um das gesuchte Thema drehen, so kann man hier den Site Crawler von YaCy nochmals ansetzten und weitere Teile Scannen. Hierbei erfasst man Informationen, die man bisher selbst noch nicht zu „Gesicht“ bekommen hat. Man nutzt hier tatsächlich den Crawler um Informationen für einen zu sammeln. Da man den Vorgang im Gegensatz zur konventionellen Suche über Suchmaschinen-Anbieter besser steuern kann, erhält man ein en lokalen Informations-Pool für die eigene Arbeit.

YaCy als Suchmaschine auf dem eigenen Server

Auch das ist möglich! Dies habe ich in der Vergangenheit auch schon probiert, war aber mit den Ergebnissen noch nicht so recht zufrieden. Ein Nachteil, so sehe ich es zumindest, ist die nicht besonders gelungene Dokumentation. Dennoch ist dieses Projekt faszinierend und etwas Zeit alles mal wert. Den es gibt nicht nur die Eine Suchmaschine.
In diesem Sinne hier der Link: YaCy – Denzentrale Websuche (Homepage)

Screenshot komplette Seite:

yacy-expert-crawler-form