CC eGov zu robots.txt von berlin.de und Zugriff auf BVV-Seiten
Dieses Dokument ist Teil der Anfrage „Aggressive Roboter durchsuchen massiv sehr reiche BVV-Inhalte“
WG: Durchsuchbarkeit von Seiten der BVV Von: An: CC: Datum: 30.09.2014 12:46 Betreff: WG: Durchsuchbarkeit von Seiten der BVV durch Suchmaschinen Zur Kenntnis. Mit freundlichen Grüßen -- Ursprüngliche Nachricht----- Von: @cc-egov.de] Gesendet: Dienstag, 30. September 2014 12:31 An: Ce: Betreff: Re: Durchsuchbarkeit von Seiten der BVV durch Suchmaschinen Sehr geehrte zur Beantwortung Ihrer Frage muß ich etwas weiter ausholen. Seit September 2012 gibt es verschiedene Interessenbekundungen aus der Politik (darunter auch den Beschluß der BVV Lichtenberg), die BVV-Seiten mögen in den gängigen Suchmaschinen auffindbar sein. Alle beteiligten Gewerke (Auftraggeber (Senatskanzlei), Betreiber berlin.de (BerlinOnline Stadtportal GmbH & Co. KG), Betreiber der BVV-Server (CC-egov GmbH), Softwarehersteller (CC-egov GmbH)) haben engagiert auf dieses Ziel hingearbeitet, und es scheint auf den ersten Blick unerklärlich, warum ich Ihnen heute immer noch keine Erfolgsmeldung geben kann - geht es doch vermeintlich nur darum, in einer Konfigurationsdatei bei berlin.de (robots.txt) einige Anpassungen bzgl. der BVV-Seiten vorzunehmen. Die Besonderheit der BVV-Seiten besteht darin, daß sie sich als ein Teil von berlin.de (und im Layout von berlin.de) darstellen, obwohl sie nicht im CMS Imperia von berlin.de verwaltet werden. Technisch basiert das auf einer Kommunikation zwischen den Servern von berlin.de und der jeweiligen BVV. Wenn Roboter also die BVV-Seiten durchsuchen wollen, wenden sie sich an berlin.de, und berlin.de reicht die Anfrage an den jeweiligen BVV-Server weiter. In einer Testphase ergab sich, daß berlin.de unter der Flut der Roboter-Anfragen an die 12 BVV-Sites allein mit dem Durchreichen der Anfragen spürbare Performance-Einbußen hinnehmen wußte, die sich für die Web-Besucher von berlin.de nachteilig bemerkbar gemacht haben. BerlinOnline hat daraufhin diese Tests abgebrochen und in der Datei http://www.berlin.de/robots.txt die Durchsuchbarkeit der BVV-Seiten wieder deaktiviert. Sie finden dort z.B. diesen Eintrag Disallow: /ba-lichtenberg/bvv-online der zur Folge hat, daß die BVV-Seiten von Lichtenberg (wie auch aller anderen Bezirke) aktuell nicht durchsucht werden. Ich kann die Auffassung von BerlinOnline nachvollziehen. Performance der Website berlin.de hat Vorrang vor Durchsuchbarkeit durch Roboter.
Das Problem besteht darin, daß Roboter jeden Hyperlink verfolgen, den sie finden können, und durch den dynamischen Aufbau der BVV-Seiten ist das eine quasi unendliche Menge von immer weiter führenden Links. In den Webserver-Protokollen haben wir bei Stichproben Zehntausende von solchen Anfragen in kurzer Zeit vorgefunden. Die gemeinsam mit BerlinOnline unternommenen Versuche, die Roboter auf den Besuch nur einzelner wichtiger BVV-Seiten zu beschränken, wurden von den Robotern nicht angenommen. Da von den Beteiligten in den vergangenen Monaten auch der Imperia-Relaunch gemeistert sein wollte, haben wir aus den o.g. Gründen die Entscheidung von BerlinOnline bzgl. robots.txt respektiert. Zusammenfassend wäre also zu sagen: Das vermeintlich technisch triviale Anliegen der Roboter-Durchsuchbarkeit der BVV-Seiten steht in einem Zielkonflikt zur Performance für Web-Besucher von berlin.de. Diesen Konflikt konnten die eingangs genannten Beteiligten trotz engagierter Kooperation bisher nicht zufriedenstellend auflösen. In der genannten Güterabwägung ist daher die Durchsuchbarkeit der BVV-Seiten weiter deaktiviert. Da wir diese Situation gern ändern möchten, verfolgen wir das Thema weiter. Ich möchte jedoch derzeit keine Hoffnungen auf baldige Lösung wecken. Freundliche Grüße CC e-gov GmbH Schweizer Straße 3 b 01069 Dresden Für Besucher und Paketzustellung: Eingang Hohe Straße Telefon: +49(0)351 / 86 26 98-42 Telefax: +49(0)351 / 86 26 98 - 49 mailto:d.morgenstern@cc-egov.de http://www.cc-egov.de Geschäftsführer: Kurt Hühnerfuß / Andreas Dyck Handelsregister: Hamburg HR B 79371