Spider
Herzlich willkommen auf der Informationsseite von ontolux zu den von uns eingesetzten Spidern.
Im Auftrag unseres Kunden, dem Bundesamt für Sicherheit in der Informationstechnik (BSI) durchsuchen unsere Spider das World Wide Web (WWW) gezielt nach Inhalten zur Weiterverarbeitung.
Sollten Sie Probleme mit einem unserer Spider haben, bieten wir Ihnen hier Informationen zur Lösung Ihres Problems. Sie finden die wichtigsten Informationen rund um unsere Spider sowie Lösungsansätze für am häufigsten auftretende Probleme. Selbstverständlich können Sie auch jederzeit persönlich mit uns in Kontakt treten und uns Ihr Anliegen per E-Mail unter der Adresse bsi@ontolux.de schildern.
Informationen für erfahrene Webseiten-Betreiber
Haben Sie als Webseiten-Betreiber bereits Erfahrungen mit Eintragungen in der robots.txt, nutzen Sie bitte die folgende User-Agent-Kennung zur Steuerung unserer Spider auf Ihrer Webseite. Anderenfalls bitten wir Sie, zunächst die in den FAQs weiter unten zu findende detaillierte Anleitung zu lesen.
Die User-Agent-Kennung lautet: BSI-Robot (Federal Office for Information Security Germany; https://www.ontolux.de/spider; bsi@ontolux.de)
Die häufigsten Fragen:
Wozu spidert ontolux die Webseiten?
ontolux realisiert als Marke der Neofonie GmbH text- und datenbasierte Lösungen. Als Begründer der ersten deutschsprachigen Suchmaschine besitzen wir insbesondere im Bereich der Suchtechnologien eine jahrzehntelange Erfahrung. Im Zuge der Realisierung von Kundenprojekten und wissenschaftlichen Forschungsprojekten wird meist das deutschsprachige Netz nach Daten durchsucht, welche dann mit wissenschaftlichen Methoden analysiert und mit daraus gewonnenen Informationen angereichert werden. Hierzu wird ausschließlich das öffentlich zugängliche Netz als Grundlage genommen und es werden strikt alle Datenschutzrichtlinien eingehalten. Wie von Suchmaschinen allgemein bekannt, werden Originalinhalte ausschließlich über Links referenziert. Da die neu erschlossenen Inhalte meist einer viel breiteren Öffentlichkeit zugänglich gemacht werden, ist der resultierende Nutzen für einzelne Webseitenbetreiber enorm, da Ihre Seiten über neue geschaffene Zusammenhänge auffindbar geworden sind.
Was ist bzw. was macht ein Spider?
Die allgemeinen Grundsätze zum Spidern von Internetseiten bringen den guten Willen der Betreiber zum Ausdruck, im Internet verantwortlich zu handeln. Alle von ontolux eingesetzte Spider möchten auch den Interessen der Betreiber von Webseiten gerecht werden und Inhalte von Webseiten möglichst ohne jegliche Beeinträchtigung von Webservern abholen.
Trotzdem sollen Sie als Betreiber einer Webseite in der Lage sein, den Zugriff auf Ihre Seiten zu steuern und zu entscheiden, was sie der Öffentlichkeit zugänglich machen möchten und was nicht.
Hierfür wurde das sogenannte „Robot-Exclusion-Standard-Protokoll“ (http://de.wikipedia.org/wiki/Robots_Exclusion_Standard) geschaffen. Dabei ist festgelegt, dass ein Spider beim Besuch eines Webservers zunächst eine Datei namens „robots.txt“ im Wurzelverzeichnis des Servers sucht, herunterlädt und auswertet. Über die darin enthaltenen Regeln kann ein Spider von bestimmten Webseitenbereichen ferngehalten oder sogar ganz ausgesperrt werden. Außerdem kann in dieser Datei dem Spider mitgeteilt werden, dass der Spider eine Sitemap-Datei (http://de.wikipedia.org/wiki/Sitemaps) benutzen könnte. Was Sie konkret tun müssen, um den Zugriff für einen Spider von ontolux zu beschränken, wird weiter unten detailliert beschrieben.
Zusätzlich oder alternativ zur beschriebenen Vorgehensweise können Sie für einzelne Seiten das HTML-Meta-Tag „robots“ (http://de.selfhtml.org/html/kopfdaten/meta.htm) benutzen, um die Indexierung beziehungsweise das Weiterverfolgen enthaltener Links zu steuern.
Wie kann ich den Zugriff des Spiders von ontolux mit der „robots.txt“ beschränken?
Um den aktuellen Inhalt Ihrer robots.txt-Datei anzusehen, können Sie der URL Ihrer Webpräsenz einfach ein „/robots.txt“ anhängen, um sich den Inhalt in einem Browser, falls vorhanden, anzeigen zu lassen.
Um einem unserer Spider den Zugriff auf bestimmte Bereiche Ihrer Webpräsenz zu untersagen, können Sie beispielsweise folgende Zeilen in Ihre Datei robots.txt im Wurzelverzeichnis Ihres Webservers eintragen:
# Spider von ontolux soll nicht aus Ordnern /pictures und /personal herunterladen
User-agent: BSI-Robot
Disallow: /pictures/
Disallow: /personal/
Durch diese Beschränkungen darf der Spider mit der User-Agent-Kennung „BSI-Robot“ alle gefundenen Links von Ihrer Seite herunterladen, außer den Dateien, deren Pfad die Ordner /pictures oder /personal enthält.
Ich kenne mich mit Serverkonfigurationen nicht aus. Was kann ich tun?
Falls Ihnen die oben angegebenen Einträge in die Datei robot.txt nicht weiterhelfen sollten, können Sie unserem Service gerne eine Email zukommen lassen. Wir werden dann versuchen mit Ihnen die Probleme zu lösen oder unseren Spider so zu konfigurieren, damit die Zugriffe auf Ihren Webserver für Sie zufriedenstellend sind.
Was kann ich tun, wenn der Spider meine Seite zu häufig anfragt?
Falls Ihnen der Spider von ontolux zu häufig bei Ihrer Webseite anfragt, dann teilen Sie uns auch dies bitte mit! Wir können den Spider ganz individuell anpassen und entsprechend konfigurieren. Sie können uns über die oben angegebene Mailadresse kontaktieren. Vielen Dank!
Kann ich die User-Agent-Kennung des Spiders überprüfen?
Um herauszufinden, mit welcher Kennung ein Spider auf Ihre Seiten zugreift, können Sie in der Zugriffsdatei für Ihren Webserver die angefragten Seiten einsehen. Darin sollte bei normaler Konfiguration die Kennung des anfragenden User-Agent mitgeloggt werden.
Ich habe eine User-Agent-Kennung in robots.txt eingetragen, aber meine Seiten werden trotzdem besucht?
Sollte trotz der oben angegebenen Einträge in der robots.txt einer unserer Spider weiterhin Seiten besuchen, die Sie als gesperrt gekennzeichnet haben, dann überprüfen Sie bitte zunächst die Konformität Ihrer robot.txt-Datei. Ist die Ursache eines Schreibfehlers oder ähnliches ausgeschlossen, überprüfen Sie bitte in der Zugriffsdatei für Ihren Server, mit welcher Kennung sich der anfragende Spider ausweist. Die User-Agent-Kennung des Spiders ist „BSI-Robot (Federal Office for Information Security Germany; https://www.ontolux.de/spider; bsi@ontolux.de)“. Ausgehend von diesem Log-Eintrag könnten Sie als User-Agent-Kennung „BSI-Robot“ in die robots.txt-Datei eintragen, um unseren Spider damit anzusprechen.
Sollten Sie trotz einer korrekt erstellten robots.txt-Datei regelwidrig von einem unserer Spider besucht werden, so bitten wir Sie uns zu kontaktieren und uns dies mit der ermittelten User-Agent-Kennung unverzüglich mitzuteilen, damit wir den fraglichen Spider sofort überprüfen können.
Wir danken!