gi-studie-algorithmenregulierung

Dieses Dokument ist Teil der Anfrage „Gutachten des Sachverständigenrats für Verbraucherfragen

/ 195
PDF herunterladen
Gutachten:
                                                      Technische und rechtliche Betrachtungen
                                                       algorithmischer Entscheidungsverfahren




   1. Code Audit
   2. Nichtinvasive Audits
   3. Scraping Audits
   4. Sock Puppet Audits
   5. Crowdsourced Audits

Nachfolgend werden fünf Grundstrategien zur Auditierung im Detail vorgestellt und
anschließend wird deren Praktikabilität für ADM diskutiert.

4.4.4.1 Code Audits
Code Audits sind eine naheliegende Methode zur Überprüfung der Funktionsweise eines
Algorithmus, auch als „Algorithm Transparency“ bezeichnet. Im Falle des Verdachts eines
fehlerhaften (oder diskriminierenden) Entscheidungsverhaltens wird eine Kopie des
Algorithmus erstellt und von einem unparteiischen Dritten, dem Auditor, begutachtet. Der
Auditor analysiert den Algorithmus und seine implementierten Entscheidungsstrukturen und
kann somit, im Idealfall, das Entscheidungsverhalten erkennen und darüber Auskunft geben,
ob ein Fehlverhalten oder ein anderweitiges nicht erwünschtes bzw. nicht wünschenswertes
Verhalten, z.B. Diskriminierung, vorliegt oder nicht.

Das Verfahren kann wie folgt illustriert werden (Sandvig 2014):




               Abbildung 4: Schematische Darstellung des Code-Audit-Verfahrens

In Abbildung 4 ist der Ablauf des Audits in groben Zügen dargestellt: Der Algorithmus, der in
einer Plattform zur Entscheidungsfindung über Benutzer und Konsumenten eingesetzt wird,
wird als eine kopierte Version an die Auditierungsstelle weitergereicht. Diese Kopie enthält
alle Daten und Zustände, die bei der benutzten Version des Algorithmus verwendet werden,
und ist somit repräsentativ für den Entscheidungsfindungsprozess. Die Kopie enthält die
gesamte Information in einer nichtverschlüsselten Repräsentation und kann somit von der
Auditierungsstelle analysiert werden. Wichtig dabei ist es, dass die Kopie vertraulich
behandelt wird und ausschließlich privilegierten und vertrauenswürdigen Dritten zugänglich
ist. Die Kopie kann wertvolle Daten über Geschäftsvorfälle, Kundeninformationen und
Unternehmensstrategien enthalten.
Unter den Nachteilen des Code Audits sind zwei Punkte besonders hervorzuheben:
   1. Komplexe Algorithmen erfordern sehr hohen Aufwand bei der Überprüfung
   2. Sich verändernde Entscheidungsstrukturen müssen immer wieder überprüft werden


                                             65
67

Gutachten:
                                                        Technische und rechtliche Betrachtungen
                                                         algorithmischer Entscheidungsverfahren




Es gibt kaum verlässliche Literatur, die darüber aufklärt, wie ADM in Unternehmen in den
Bereichen Human Resources oder Kreditscoring aktuell eingesetzt wird. Wie jedoch in
Kapitel 3.1 und 3.2 erläutert, existieren an der Schnittstelle zwischen ADM und ML sehr
komplexe Verfahren, die zwar rational sind (im mathematischen und deterministischen
Sinne), für Menschen jedoch nur mehr sehr schwer nachzuvollziehen. Zur Überprüfung
hinsichtlich Diskriminierung ist nicht nur spezifisches Expertenwissen, sondern auch ein
hoher Ressourcenaufwand notwendig. Darüber hinaus sind konkrete überprüfbare Kriterien
erforderlich, anhand derer sich Diskriminierung bestimmen lässt. Die zweite
Herausforderung bei der Auditierung von eingesetzten Algorithmen bei ADM ist die hohe
Dynamik, mit der sich diese weiterentwickeln. Die Verfahren des Maschinellen Lernens
werden kontinuierlich weiterentwickelt. Damit verändern sich nicht nur die internen
Parameter des Modells, sondern auch das Entscheidungsverhalten kann sich über die Zeit
hinweg verändern. Damit reicht es also nicht aus den Algorithmus einmalig zu analysieren,
um sein Verhalten zu bewerten, da sich dieses kontinuierlich verändert.

4.4.4.2 Nichtinvasive Audits
Neben der Möglichkeit der Analyse des konkreten auszuführenden Programmcodes des
Algorithmus gibt es die Möglichkeit der sogenannten nichtinvasiven Audits. Diese stellen nur
im weitesten Sinne eine Form der Auditierung dar, weil es nicht, wie bei den zuvor
diskutierten Verfahren, darum geht, die Funktionsweise des Algorithmus über gesicherte
Verfahren zu rekonstruieren, sondern über die Rückmeldung von Benutzern. Benutzer
werden dazu befähigt ihr eigenes Verhalten und Nutzen zu beschreiben und in einer Art
Fragebogen festzuhalten. Über größere Mengen von Datenbeständen, die die
Nutzungsweise der Plattform beschreiben, lassen sich dann Rückschlüsse auf das
Verhalten und die (automatisierte) Entscheidungsfindung innerhalb der Plattform ziehen.

Der Ablauf könnte dabei wie folgt dargestellt werden:




               Abbildung 5: Schematische Darstellung nichtinvasiver Auditverfahren

Benutzer interagieren mit einer Plattform, z.B. im Bereich Kreditscoring, und beschreiben die
Daten, die sie der Plattform zur Verfügung gestellt haben, und welche Rückmeldung sie
daraufhin bekommen haben. Um diese Daten besser verwerten zu können, erfolgt dies
idealerweise in Fragebögen oder Ähnlichem. Liegt eine größere Anzahl an Rückmeldungen
über das Verhalten und die Entscheidungen einer Kreditscoringplattform vor, so kann man
Aussagen über das Verhalten treffen und z.B. über statistische Verfahren Indizien für eine
mögliche Diskriminierung finden (zur Diskussion des Fairnessbegriffs siehe Kapitel 4.3).

Dieses Verfahren bedarf natürlich einer repräsentativen Datenmenge, um überhaupt
statistisch signifikante Aussagen über eine Plattform machen zu können. Die Erhebung der


                                               66
68

Gutachten:
                                                        Technische und rechtliche Betrachtungen
                                                         algorithmischer Entscheidungsverfahren




Daten (Sampling) stellt eine große Herausforderung dieser Methode dar, da hier auch
sensitive (persönliche) Daten erhoben und persistiert werden müssen.

4.4.4.3 Scraping Audits
Bei der Überprüfung des Verhaltens eines Algorithmus existiert die Möglichkeit, sein
Verhalten über automatisierte Verfahren zu erfassen. Dabei werden kleine Programme, z.B.
Skripte, entwickelt und ausgeführt, die wiederholt Anfragen an einen in einer Plattform
eingesetzten Algorithmus senden und die Antworten auswerten. Dieser Ansatz ähnelt dem
automatisierten Testen von Software, welches bei Software Engineering im industriellen
Kontext sehr etabliert ist. Das Ziel dabei ist es, ein bestimmtes Verhalten der entwickelten
Software zu vermeiden bzw. sicherzustellen. Das Skript entwickelt Datenbestände und
sendet diese an den Algorithmus, der eine Entscheidung auf diesen (fiktiven) Daten trifft.
Unter Verwendung dieser Skripte ist es möglich eine große Bandbreite an möglichen
Entscheidungen zu analysieren und zu bewerten.

In der Regel erfolgt die Abfrage nicht über die gleiche Schnittstelle, über die Benutzer ihre
Anfragen stellen, sondern über eine separate API. Der Algorithmus wird dabei als eine
Blackbox betrachtet, seine internen Entscheidungsstrukturen müssen nicht offengelegt
werden und verlassen die Plattform und somit das Unternehmen nicht.

Das Verfahren ist in folgender Abbildung illustriert:




               Abbildung 6: Schematische Darstellung von Scraping-Audit-Verfahren

Die Abfrage aus einem Skript heraus erfolgt automatisch und ist in der Lage, eine
Rückmeldung zu verschiedenen Variationen von Daten zu erhalten. Diese Daten werden
derart generiert, dass eine Aussage über das Entscheidungsverhalten getroffen werden
kann. Dies könnte z.B. so aussehen, dass in einem Datensatz nur kleine Änderungen an
Attributen vorgenommen werden, deren Unterscheidung indiziell für Diskriminierung ist (z.B.
Geschlecht). Verändert der Algorithmus auf Basis dieser kleinen Veränderung der Daten
seine Entscheidung, so liegt die Vermutung nahe, dass die interne Entscheidungsstruktur
problematische Attribute hinsichtlich Diskriminierung berücksichtigt. Der Vorteil dieses
Verfahrens liegt in der automatisierten Anwendung und den im Vergleich zur manuellen
Code-Analyse niedrigen Transaktionskosten. Ändert sich der Algorithmus, kann das Skript
erneut gestartet und die Analyse angestoßen werden. Anders als beim nichtinvasiven Audit
werden auch keine sensiblen Daten von Benutzern benötigt, sondern nur fiktive (generierte)
Daten verwendet.



                                               67
69

Gutachten:
                                                          Technische und rechtliche Betrachtungen
                                                           algorithmischer Entscheidungsverfahren




4.4.4.4 Sock Puppet Audits
Das Sock Puppet Audit ist eine Weiterentwicklung des Scraping Audits und insbesondere für
die Analyse von Plattformen geeignet, deren Algorithmus zur Entscheidungsfindung sich
nicht direkt, z.B. über eine API, ansprechen lässt. Es ist technologisch möglich,
Computerprogramme derart zu schreiben, dass sie das Verhalten von Benutzern simulieren
und sich gegenüber der Plattform so verhalten, als wären sie menschliche Benutzer. Solche
Computerprogramme nennt man üblicherweise „sock puppets“. Diese fiktiven Benutzer sind
mit Strategien ausgestattet, um sich gegenüber der Plattform mit verschiedenen Attributen
darzustellen. Die Menge an mögliche Attributen und deren Ausprägung ist variabel und kann
je nach Strategie gesteuert und angepasst werden.

Das Verfahren kann anschaulich wie folgt dargestellt werden:




                Abbildung 7: Schematische Darstellung von Sock-Puppet-Audit-Verfahren

Auf die Plattform wird von außen über Schnittstellen zugegriffen, die auch menschlichen
Benutzern zur Verfügung stehen. Die fiktiven Benutzer (sock puppets) senden auf die
gleiche technische Art und Weise Anfragen und versuchen dabei die Anfragen derart zu
strukturieren und zu gestalten, dass Aussagen über die zugrundeliegenden algorithmischen
Entscheidungsstrukturen getroffen werden können. Über die Variation kleinerer Änderungen
in den Datensätzen, die automatisch generiert werden, kann das Verhalten der Plattform
über einen großen Bereich erfasst und abgeglichen werden. Idealerweise lassen sich dann
auch Rückschlüsse darüber ziehen, ob und in welchem Ausmaß sensible Attribute Einfluss
auf das ADM haben.

Der Vorteil dieses Verfahrens besteht darin, dass die Kosten zur Durchführung
verhältnismäßig gering sind und sich ein sehr breites Spektrum an möglichen
Benutzergruppen abbilden lässt.

Analog zum Scraping Audit ist auch das Sock Puppet Audit nicht ohne weiteres auf
Internetplattformen anwendbar. Die praktische Hürde dabei ist die technologische
Ausgestaltung der Schnittstelle, die eine automatisierte Abfrage durch Skripte oder
Computerprogramme aus Sicherheitsgründen oftmals nicht zulässt. Zusätzlich wird in
manchen Jurisdiktionen das automatisierte Abfragen als eine illegale Maßnahme zur
Analyse und zur Rekonstruktion der Plattform (samt Algorithmus), also von schützenswerten
Betriebsgeheimnissen, angesehen.98

4.4.4.5 Crowdsourced Audits
Als eine Variante des Sock Puppet Audits kann die Auditierung durch die „Crowd“
angesehen werden. Anstelle von programmierten fiktiven Benutzern bestimmt man eine
Menge von „affiliierten“ Benutzern, zu denen man ein besonderes Vertrauensverhältnis

98
     Siehe dazu auch Sandvig 2014, S. 11.


                                                 68
70

Gutachten:
                                                        Technische und rechtliche Betrachtungen
                                                         algorithmischer Entscheidungsverfahren




aufbaut. Diese Benutzer bekommen den Auftrag, eine Plattform und den zugrundeliegenden
Algorithmus während des Betriebs zu testen. Diese Form des Audits wurde auch als eine
Strategie angesehen, um nicht von den Einschränkungen und Verboten betroffen zu sein,
die sich bei der automatisierten Auditierung der Plattformen von außen ergeben (siehe
Scraping-Audit und Sock-Puppet-Audit).

Die Aufgaben, die dort ein Computerprogramm innehat, nämlich die Abfrage mit
unterschiedlichen und repräsentativen Datumswerten, übernehmen wieder menschliche
Benutzer.

Eine grafische Darstellung könnte wie folgt aussehen:




            Abbildung 8: Schematische Darstellung von Crowdsourced-Audit-Verfahren

Die Illustration zeigt die Interaktion der Benutzer mit der Plattform, in welche der Algorithmus
eingebettet ist. Im Kreis der Benutzer ist eine Menge speziell gekennzeichnet, die im
Austausch mit der Auditierungsstelle steht. Diese Stelle orchestriert die affiliierten Benutzer
dahingehend, als dass sie diese anleitet und ihnen die unterschiedlichen Parameter mitteilt,
anhand derer das ADM bewertet werden soll.

4.4.4.6 Illustration am Beispiel Kreditscoring
Code Audits: Beim Code Audit wird einem Dritten, z.B. einer vertrauenswürdigen Behörde,
der gesamte Programmcode zur Verfügung gestellt, der die Algorithmen beinhaltet, die
innerhalb das ADM-Systems verwendet werden. Dieser Code umfasst nicht nur die
trainierten Algorithmen, sondern auch die Programmcodes, die zur Datenerhebung,
Vorverarbeitung und Nachbearbeitung verwendet werden (siehe Kapitel 3.4). Die Einbettung
von ADM-Systemen in einen komplexen Prozess macht dies erforderlich – denn ohne
Berücksichtigung dieser Elemente lassen sich keine vollumfänglichen Rückschlüsse auf die
Entscheidungsstrukturen und deren Zustandekommen ziehen.

Nichtinvasive Audits: Beim nichtinvasiven Audit werden Benutzer eines Kreditscorings
über das Systemverhalten befragt und deren Antworten ausgewertet. Benutzer fragen eine
Bonitätsprüfung an, ohne besondere Vorkehrungen zu treffen, und bewerten danach,
welchen Eindruck das System auf sie macht bzw. ob sie eine Entscheidung (nicht)
nachvollziehen können. Dies kann auf Basis von Interviews oder Fragebögen stattfinden.

Scraping Audits: Das Kreditscoringsystem stellt eine Programmierschnittstelle zur
Verfügung, die, nicht notwendigerweise öffentlich, zur Verfügung gestellt wird. Diese



                                              69
71

Gutachten:
                                                     Technische und rechtliche Betrachtungen
                                                      algorithmischer Entscheidungsverfahren




Programmierschnittstelle kann mit automatischen Skripten abgefragt werden. Diese Skripte
können eine große Anzahl an Abfragen machen und möglicherweise noch weitere
Informationen, wie etwa Konfidenz einer Entscheidung, Alternativen und Erklärungen (z.B.
Gewichte einzelner Attribute) erhalten. Die Programmierschnittstelle kann möglicherweise
noch mehr Informationen anbieten, als normale Endverbraucher bekommen.

Sock Puppet Audit: Beim Sock Puppet Audit werden fiktive Benutzer simuliert (ähnlich dem
Scraping Audit), in der Regel durch andere Computerprogramme, die sich dem
Kreditscoringsystem gegenüber als Benutzer bzw. Personen ausgeben, als würden sie das
System normal benutzen wollen. Hierbei werden unterschiedliche Parameter, z.B. Herkunft,
Kaufverhalten oder Browserverlauf, geändert, sodass eine umfangreiche Aussage über das
Entscheidungsverhalten des ADM-Systems getroffen werden kann.

Crowdsourced Audit: Analog zum Sock Puppet Audit werden die Daten von
unterschiedlichen Benutzern eines Systems (z.B. Schufa) ausgewertet und analysiert. Im
Gegensatz zu Sock Puppets willigt eine Gruppe, die Crowd, in die Bereitstellung der eigenen
Daten und des Ergebnisses des ADM-Systems in ein Drittsystem ein. In diesem Drittsystem
werden die Daten konsolidiert und über die große Datenmenge ausgewertet.

4.4.4.7 Zwischenfazit
Audits sind eine geeignete Maßnahme, um die Qualität von ADM-Systemen zu überprüfen
und mögliches Fehlverhalten zu identifizieren. Audits und Testen überlagern sich in
mehreren Aspekten sehr stark und ergänzen sich in diversen Bereichen. Für das Auditieren
von ADM-Systemen kann Folgendes festgehalten werden:
   ● Es gibt mehrere Arten, ein ADM-System zu auditieren.
   ● Die Audits reichen bis zur vollständigen Offenlegung des Codes sowie aller
       Dokumente und Zwischenschritte, die erfolgt sind, bis das ADM-System zum Einsatz
       gelangt.
   ● Die vollständige Transparenz steht möglicherweise mit den Geschäftszielen und
       Geschäftsgeheimnissen im Konflikt.
   ● Auditierung kann auch eine strukturierte Abfrage des ADM-Systems beinhalten;
       hierbei wird sie dem Testen (siehe Kapitel 4.4.3) sehr ähnlich. Dabei muss nicht
       notwendigerweise der Code offengelegt werden, sondern das System wird als eine
       Blackbox beschrieben. Auch hier sind Rückschlüsse auf möglicherweise vertrauliche
       Entscheidungsstrukturen des ADM-Systems möglich.
   ● Betrachtet man Testverfahren als Kontrollmechanismen für ADM-Systeme, so zeigt
       sich, dass das Scraping Audit und das Sock Puppet Audit in weiten Teilen dem
       Testen entsprechen. Die Verfahren nähern sich an und lassen sich kaum mehr
       voneinander abgrenzen, was für die Verwendung als Kontrollmechanismus auch
       nicht notwendig ist.
   ● Auditierung bedarf einer technischen Expertise sowie der fachlichen, juristischen
       Expertise, um die Ergebnisse entsprechend aufbereiten und interpretieren zu
       können.

4.4.5 Auditing von archivierten ADM-Systemen
Da es sich bei ADM-Systemen auch um Softwaresysteme handelt, unterliegen sie in der
Regel einer ständigen und fortlaufenden Änderung und Anpassung. ADM-Systeme werden
weiterentwickelt und weisen möglicherweise ein neues Entscheidungsverhalten auf. Um
eine rückwirkende Kontrolle zu ermöglichen, ist es notwendig die Entscheidungsmodelle zu



                                            70
72

Gutachten:
                                                      Technische und rechtliche Betrachtungen
                                                       algorithmischer Entscheidungsverfahren




archivieren und bei Bedarf wieder einspielen zu können. Eingespielte Modelle aus den
Archiven sind der Analyse, dem Audit sowie dem Testing wie oben beschrieben zugänglich.

Das Archivieren von trainierten Modellen ist unter Umständen ressourcenintensiv
(insbesondere Speicherplatz), technisch jedoch machbar. Speziell die Verwendung von
Software zur Versionskontrolle ist hier geeignet. Die Speicherung von trainierten Modellen
erscheint für die Nachvollziehbarkeit und Rekonstruierbarkeit von Entscheidungen sinnvoller
als die Speicherung von großen Trainingsdatenbeständen etc. Bei selbstlernenden ADM-
Systemen, die ihr Verhalten während des Betriebs weiterentwickeln, reicht es jedoch nicht,
die Entscheidungsmodelle „von Zeit zu Zeit“ zu archivieren. Hier bliebe die Möglichkeit,
einen „Snapshot“ vor jeder Entscheidung zu archivieren, was in der Praxis nicht realisierbar
ist, oder die jeden zum Training verwendeten Datensatz zu speichern. Beide Möglichkeiten
sind für die Praxis vermutlich unbefriedigend und – wenn überhaupt – nur durch sehr hohen
Aufwand durchführbar.




4.5 Fazit
Im vorliegenden Kapitel haben wir die Grundkonzepte des Maschinellen Lernens sowie die
logistische Regression als Beispiel eines praktisch relevanten und einfach prüfbaren
statistischen Klassifikationsmodells dargestellt. Aus den Grundlagen des Maschinellen
Lernens ergeben sich auch unmittelbar die praktischen Probleme, die unter anderem in
Diskriminierung münden können: Unausgewogenheiten in den Daten können sich im
Trainingsprozess niederschlagen. Die Nichtverwendung von geschützten Attributen
(aufgrund derer eine Diskriminierung also nicht zulässig ist) ist keine universelle Lösung, da
einerseits die Gruppenzugehörigkeit mittels Proxyvariablen für das Modell erkennbar bleiben
kann und andererseits die Genauigkeit des trainierten Modells reduziert werden kann. Somit
ergibt sich ein potenzieller Konflikt zwischen dem Anspruch der Richtigkeit der Entscheidung
(Gefährdungsszenario 1) und dem Ziel der Nichtdiskriminierung durch ADM
(Gefährdungsszenario 2).

Quantitative Begriffe der Gleichbehandlung bieten die Möglichkeit, das Vorhersageverhalten
eines trainierten Modells genau zu untersuchen. Obgleich sie als direktes
Regulierungsinstrument gegenwärtig nur bedingt geeignet sind, bilden sie potenziell
nützliche Werkzeuge für die Gestaltung von Auditprozessen und bieten vielerlei
Perspektiven für weitere interdisziplinäre Forschung in diesem Bereich. Die automatische
Berücksichtigung solcher Metriken beim Erstellen von Modellen ist Gegenstand aktueller
Forschung und eignet sich unserer Einschätzung nach noch nicht dazu regulativ aufgegriffen
zu werden.

Es existiert eine Vielzahl von ML-Modellen verschiedener Komplexität mit verschiedenen
Lernkapazitäten und Graden der Erklärbarkeit. Wenn nachvollziehbare Verfahren verwendet
werden (wie z.B. die in der Praxis verbreitete logistische Regression), ist eine direkte
Kontrolle des Modells prinzipiell möglich. Je nach Problem und Daten können diese jedoch
komplexeren, weniger transparenten Modellen in Genauigkeit und Kapazität unterlegen sein.
Komplexere Modelle erfordern entsprechend geeignete Prüfungskriterien. Es gilt daher die
verschiedenen technischen Möglichkeiten der Modellinterpretation und -prüfung durch
Testdaten im Rahmen von Test- und Auditprozessen sachgerecht mit den rechtlichen
Anforderungen zu verknüpfen (siehe dazu die Diskussion in Kapitel 5.4.3).



                                             71
73

Gutachten:
                                                         Technische und rechtliche Betrachtungen
                                                          algorithmischer Entscheidungsverfahren




Die Analyse eines konkreten ADM-Systems muss notwendigerweise in mehrere Ebenen
unterteilt werden:

      1. Analyse des Gesamtprozesses zur (Weiter-)Entwicklung eines ADM-Systems

      2. Analyse des trainierten Modells

      3. Analyse der Entscheidung auf Instanzebene

Diese Differenzierung ermöglicht einen holistischen Blick auf die komplexen Vorgänge und
Abläufe, die bei ADM ineinandergreifen. Auf Basis dieses Verständnisses können auch
unterschiedliche Maßnahmen identifiziert werden, die die Transparenz von ADM erhöhen
und die Grundlage für den Nachweis von Fairness und Diskriminierung darstellen. Es zeigt
sich, dass es nicht ausreicht, auf eine Ebene alleine abzustellen, um Entscheidungen
nachvollziehen zu können bzw. um mögliche Ursachen für zu hinterfragende
Entscheidungen zu erkennen und nachzuweisen. So können z.B. Biases in erhobenen
Daten, wie oben bereits erwähnt wurde, zu Entscheidungen auf der Instanzebene führen,
die diskriminierend sind. Von einem mathematisch-rationalen Standpunkt aus betrachtet ist
dieses Verhalten eines maschinell trainierten Verfahrens durchaus nachvollziehbar und der
Effekt, der sich auf der Instanzebene beobachten lässt, hat seine Ursache in einem der
ersten Schritte innerhalb des Prozesses. Vermeidungsstrategien müssen daher dort bereits
ansetzen, um effektiv und zielführend zu sein. In einer Arbeit von 2016 bringen Goodman
und Flexman diesen Umstand auf den Punkt: „machine learning depends upon data that has
been collected from society, and to the extent that society contains inequality, exclusion or
other traces of discrimination, so too will the data.“99

Als Ergänzung zur Analyse des Gesamtprozesses und der darin vollzogenen Teilschritte
haben wir im vorliegenden Kapitel zwei weitere Methoden diskutiert: Auditierung und Testen.
Das Auditieren ist grundsätzlich geeignet, um die Transparenz der Entscheidungsstrukturen,
die einem ADM-System zugrunde liegen, zu erhöhen. Es existieren jedoch unterschiedliche
Auditierungsmethoden, die jeweils Vor- und Nachteile haben. Das klassische Code-Audit
erfordert die Offenlegung des gesamten Softwareprogramms, sodass es für IT-Experten
möglich ist, das System zur Gänze zu analysieren und zu erfassen. Je nach verwendetem
maschinellem Lernverfahren können relevante Attribute sofort erkannt und Aussagen über
eine mögliche problematische Diskriminierung getroffen werden. Dies gilt vor allem für
Lernverfahren, die auf deduktiven und regelbasierten Methoden beruhen, z.B.
Entscheidungsbäume. Für komplexere Lernverfahren, wie etwa neuronale Netze, kann die
Code-Einsicht dennoch sehr erhellend sein, obwohl sich das trainierte Modell einer
Interpretation durch den Menschen entzieht. An dieser Grenze können dann Testverfahren
aufschlussreich sein. Diese können sehr effizient und schnell durchgeführt werden, sofern
die Testfälle definiert sind. Allerdings ist die Definition von Testfällen stark von der jeweiligen
Anwendung abhängig und in manchen Fällen nicht ohne weiteres möglich. So kann
beispielsweise die Bonität von fiktiven Personen in Testdaten nicht geschätzt werden. Als
mögliche Lösung kann der Einsatz von Metamorphic Testing dienen. Dabei wird nicht mehr
das konkrete Ergebnis einer Klassifizierung betrachtet, sondern die Veränderung und das
Verhältnis zwischen zwei Bewertungen. Es wird also geprüft, ob ein sensibles Attribut, z.B.
Geschlecht oder Alter, einen signifikanten Unterschied in der Bewertung der Bonität macht
oder nicht. Wir haben dieses Vorgehen anhand konkreter Fallbeispiele illustriert.



99
     Goodman/Flaxman, 2017.


                                                72
74

Gutachten:
                                                     Technische und rechtliche Betrachtungen
                                                      algorithmischer Entscheidungsverfahren




Die hier angestellten Überlegungen bieten die technische Grundlage und einen Überblick
über die Komplexität der Herausforderung, die sich bei der Interpretation und Erklärbarkeit
von ADM ergibt. Sie zeigen Möglichkeiten auf, um sich der Thematik strukturiert zu nähern
und für die Diskriminierung relevante Fragestellungen zu differenzieren. Sie spielen daher
auch als Grundlage für die im nächsten Kapitel folgende juristische Betrachtung eine
wichtige Rolle




                                            73
75

Gutachten:
                                                     Technische und rechtliche Betrachtungen
                                                      algorithmischer Entscheidungsverfahren




5 Algorithmische Entscheidungen aus rechtlicher
Sicht

5.1 Rechtsfragen algorithmischer Beurteilung von Personen

5.1.1 Stand der Diskussion und Problemlagen

5.1.1.1 Algorithmische Beurteilung von Personen in der juristischen Diskussion
Die Diskussion der spezifischen Rechtsfragen algorithmischer Entscheidungen hat erst
jüngst begonnen. Umfassende Untersuchungen und Kategorisierungen der Problemlagen
algorithmischer Entscheidungen aus rechtlicher Sicht liegen, soweit erkennbar, für das
deutsche Recht nicht vor, was angesichts der Vielfalt der Fragestellungen und der Dynamik
der Entwicklung verständlich ist. In der bereits genannten Untersuchung von Martini werden
als Risiken die „Monopolisierung von Markt- und Meinungsmacht“, „Intransparenz“ und
„Diskriminierung“ genannt, aber ersichtlich nicht als systematische oder gar abschließende
Problemanalyse verstanden.100 Auch in anderen Rechtsordnungen werden eher einzelne
Probleme beschrieben (dazu unten Kapitel 6). Vielfach werden in der juristischen Diskussion
dieselben oder ähnliche Themen genannt. So wird auf die Rolle von Facebook im US-
Wahlkampf verwiesen, die Bedeutung des Wohnorts für Kreditentscheidungen oder die
Relevanz des Vornamens in automatisierten Bewerbungsverfahren. Häufig wird auch auf die
in den USA eingesetzte Software zur Ermittlung der Rückfallwahrscheinlichkeit von
Straftätern abgestellt. Ein umfassender Befund oder gar eine einheitliche
Problembeschreibung besteht auch in der internationalen Perspektive nicht.

Eine intensive rechtliche Auseinandersetzung mit den Herausforderungen der Beurteilung
von Personen durch Maschinen existiert bisher nicht. Auch fehlt es an einer systematischen
Beschreibung deren spezifischen rechtlichen Probleme.

Als eine spezifische Problemlage des Einsatzes algorithmischer Entscheidungen kann wohl
die Steigerung des Ausmaßes der Beurteilung von Menschen identifiziert werden. Dies gilt
sowohl hinsichtlich der Intensität als auch des Umfang von Beurteilungen.

5.1.1.2 Beurteilung von Menschen in neuen Bereichen
So lässt sich beobachten, dass mit der Nutzung algorithmischer Entscheidung eine
Beurteilung in Bereichen eintritt, in denen sie bisher nicht vorgenommen wurde. So werden
Güter des Alltags im Massengeschäft traditionell ohne Beurteilung des Käufers verkauft. Im
Supermarkt steht die Ware für jeden Käufer mit gleichen Merkmalen gleichermaßen zur
Verfügung.

Dies ändert sich etwa durch dynamic pricing, soweit der Preis einer Ware abhängig von der
Einschätzung einer Person, etwa deren Zahlungsbereitschaft, festgelegt wird. Individuelle
Preise als solches sind nichts Neues und das Wesensmerkmal aller Märkte, in denen der
Preis durch individuelle Verhandlung festgelegt wird. Es ist aber ein neues Phänomen, wenn

100
      Vgl. Martini 2017.


                                            74
76

Zur nächsten Seite