CC eGov zu robots.txt von berlin.de und Zugriff auf BVV-Seiten

Dieses Dokument ist Teil der Anfrage „Aggressive Roboter durchsuchen massiv sehr reiche BVV-Inhalte

/ 2
PDF herunterladen
WG: Durchsuchbarkeit von Seiten der BVV
Von:
An:
CC:
Datum: 30.09.2014 12:46

Betreff: WG: Durchsuchbarkeit von Seiten der BVV durch Suchmaschinen

 
 

Zur Kenntnis.

Mit freundlichen Grüßen

 

-- Ursprüngliche Nachricht-----

Von: @cc-egov.de]
Gesendet: Dienstag, 30. September 2014 12:31

An:

Ce:

Betreff: Re: Durchsuchbarkeit von Seiten der BVV durch Suchmaschinen

Sehr geehrte

zur Beantwortung Ihrer Frage muß ich etwas weiter ausholen.

Seit September 2012 gibt es verschiedene Interessenbekundungen aus der Politik (darunter auch den
Beschluß der BVV Lichtenberg), die BVV-Seiten mögen in den gängigen Suchmaschinen auffindbar
sein.

Alle beteiligten Gewerke (Auftraggeber (Senatskanzlei), Betreiber berlin.de (BerlinOnline Stadtportal
GmbH & Co. KG), Betreiber der BVV-Server (CC-egov GmbH), Softwarehersteller (CC-egov GmbH))
haben engagiert auf dieses Ziel hingearbeitet, und es scheint auf den ersten Blick unerklärlich, warum
ich Ihnen heute immer noch keine Erfolgsmeldung geben kann - geht es doch vermeintlich nur darum,
in einer Konfigurationsdatei bei berlin.de (robots.txt) einige Anpassungen bzgl. der BVV-Seiten
vorzunehmen.

Die Besonderheit der BVV-Seiten besteht darin, daß sie sich als ein Teil von berlin.de (und im Layout
von berlin.de) darstellen, obwohl sie nicht im CMS Imperia von berlin.de verwaltet werden.

Technisch basiert das auf einer Kommunikation zwischen den Servern von berlin.de und der
jeweiligen BVV.

Wenn Roboter also die BVV-Seiten durchsuchen wollen, wenden sie sich an berlin.de, und berlin.de
reicht die Anfrage an den jeweiligen BVV-Server weiter.

In einer Testphase ergab sich, daß berlin.de unter der Flut der Roboter-Anfragen an die 12 BVV-Sites
allein mit dem Durchreichen der Anfragen spürbare Performance-Einbußen hinnehmen wußte, die
sich für die Web-Besucher von berlin.de nachteilig bemerkbar gemacht haben.

BerlinOnline hat daraufhin diese Tests abgebrochen und in der Datei http://www.berlin.de/robots.txt
die Durchsuchbarkeit der BVV-Seiten wieder deaktiviert. Sie finden dort z.B. diesen Eintrag
Disallow: /ba-lichtenberg/bvv-online

der zur Folge hat, daß die BVV-Seiten von Lichtenberg (wie auch aller anderen Bezirke) aktuell nicht
durchsucht werden.

Ich kann die Auffassung von BerlinOnline nachvollziehen. Performance der Website berlin.de hat
Vorrang vor Durchsuchbarkeit durch Roboter.
1

Das Problem besteht darin, daß Roboter jeden Hyperlink verfolgen, den sie finden können, und durch
den dynamischen Aufbau der BVV-Seiten ist das eine quasi unendliche Menge von immer weiter
führenden Links. In den Webserver-Protokollen haben wir bei Stichproben Zehntausende von solchen
Anfragen in kurzer Zeit vorgefunden.

Die gemeinsam mit BerlinOnline unternommenen Versuche, die Roboter auf den Besuch nur
einzelner wichtiger BVV-Seiten zu beschränken, wurden von den Robotern nicht angenommen.

Da von den Beteiligten in den vergangenen Monaten auch der Imperia-Relaunch gemeistert sein
wollte, haben wir aus den o.g. Gründen die Entscheidung von BerlinOnline bzgl. robots.txt respektiert.

Zusammenfassend wäre also zu sagen:

Das vermeintlich technisch triviale Anliegen der Roboter-Durchsuchbarkeit der BVV-Seiten steht in
einem Zielkonflikt zur Performance für Web-Besucher von berlin.de. Diesen Konflikt konnten die
eingangs genannten Beteiligten trotz engagierter Kooperation bisher nicht zufriedenstellend auflösen.
In der genannten Güterabwägung ist daher die Durchsuchbarkeit der BVV-Seiten weiter deaktiviert.

Da wir diese Situation gern ändern möchten, verfolgen wir das Thema weiter. Ich möchte jedoch
derzeit keine Hoffnungen auf baldige Lösung wecken.

Freundliche Grüße

CC e-gov GmbH

Schweizer Straße 3 b

01069 Dresden

Für Besucher und Paketzustellung:
Eingang Hohe Straße

Telefon: +49(0)351 / 86 26 98-42
Telefax: +49(0)351 / 86 26 98 - 49
mailto:d.morgenstern@cc-egov.de
http://www.cc-egov.de
Geschäftsführer: Kurt Hühnerfuß / Andreas Dyck
Handelsregister: Hamburg HR B 79371
2