gi-studie-algorithmenregulierung

Dieses Dokument ist Teil der Anfrage „Gutachten des Sachverständigenrats für Verbraucherfragen

/ 195
PDF herunterladen
Gutachten:
                                                          Technische und rechtliche Betrachtungen
                                                           algorithmischer Entscheidungsverfahren




einzugrenzen, für die ein entwickeltes ADM-System richtige Entscheidungen treffen kann.
Diese Grenzen ergeben sich aus vielerlei Faktoren. Eine Grundannahme im Gebiet des
Maschinellen Lernens ist etwa, dass die Verteilung der Testdaten (d.h. die in der Benutzung
eingegebenen Daten zur Entscheidung) weitestgehend der Verteilung der Trainingsdaten
folgt. Ein Kreditscoringsystem, das anhand von Daten einer bestimmten Region trainiert
wurde, kann in einer anderen Region möglicherweise nicht ohne Anpassung angewendet
werden. Auch sollten die Daten strukturell mit dem Modell kompatibel sein und keine
unerwarteten Lücken, Falschinformationen oder Messfehler enthalten.

Die schwierigste Abschätzung in diesem Zusammenhang ist die Identifikation von Bereichen
des Attributraumes, in dem das Modell ungenau ist, entweder weil es zu wenig
Trainingsbeispiele in diesem Bereich zur Verfügung hatte, das Modell technisch zu limitiert
ist, die Phänomene in den Daten zu erfassen, oder weil die Trainingsdaten selbst unsauber
oder inkohärent sind. Idealerweise sollte ein ADM-System derart konstruiert sein, dass es
zusätzlich zur getroffenen Entscheidung auch noch Auskunft über die Konfidenz geben
kann, also über die eigene „Zuversicht“ in die Richtigkeit der Vorhersage.83 Dies erlaubt die
Unterscheidung in eine Menge von Eingaben, für die das System eine richtige Entscheidung
trifft und sich dabei auch sehr sicher ist (hohe Konfidenz), und solche Eingaben, für die das
System erkennt, dass es auf Basis der trainierten Entscheidungsstrukturen nicht mit hoher
Konfidenz auf richtige Ergebnisse schließen kann. Letzteres erlaubt beispielsweise manuelle
Kontrollmechanismen.

Wichtig ist hier die Unterscheidung zwischen richtigen Ergebnissen, Ergebnissen mit hoher
Konfidenz und nichtdiskriminierenden Ergebnissen. Diese drei Charakteristika richtig/falsch,
hohe/niedrige Konfidenz        und   diskriminierend/nichtdiskriminierend  hängen      nicht
notwendigerweise voneinander ab und beschreiben unterschiedliche Aspekte einer
Entscheidung. So kann eine „richtige“ Entscheidung aus Sicht des maschinell trainierten
Systems getroffen werden, die dennoch diskriminierend ist. Ohne ein geeignetes Maß zur
Bewertung von Diskriminierung spiegelt das System nur den Trainingszustand und die
mathematischen Funktionen (inklusive Parameter) wider, auf die es trainiert wurde. Analog
kann es auch passieren, dass eine falsche Entscheidung mit einer hohen Konfidenz
getroffen wurde. Das System ist sich also sehr sicher bei seiner Entscheidung, trifft aber
nach menschlichen Maßstäben dennoch die falsche Entscheidung. Zusätzliche
Mechanismen und Methoden sind somit erforderlich, um das Entscheidungsverhalten von
ADM bewerten und Fragestellungen der Diskriminierung beantworten zu können.

3. Auf Basis welcher Daten, Features (inklusive Gewichtung) und mathematischer
Operationen wurde die Entscheidung getroffen?

Frage 3 konkretisiert die Fragen 1 und 2 weiter. Üblicherweise benötigen ADM-Systeme zur
Entscheidungsfindung Eingabedaten, die von außen an sie herangetragen werden. Diese
werden    dann     vorverarbeitet    und   durchlaufen     diverse    Verarbeitungs- und
Transformationsschritte, bis sie der Komponente zum Maschinellen Lernen übergeben

83
   Eine einfache technische Implementierung dieses Prinzips im Bereich Kreditscoring kann sein,
dass das System nicht nur ausgibt, ob die Bewertung des Antragstellers den Schwellenwert zur
positiven Entscheidung überschreitet, sondern auch den relativen Abstand zur Schwelle anzeigt.
Effektiv läuft dies auf eine prozentuale Charakterisierung des Ausfallrisikos hinaus, welche wiederum
als Angabe in übergeordnete quantitative Entscheidungsprozesse einfließen kann (z.B. unter
Hinzunahme des potenziellen Gewinns). Aus unseren Gesprächen mit Nutzern der Technologie
haben wir Grund zur Annahme, dass diese Verwendung von ML-Modellen in der Praxis zumindest im
Bereich Kreditscoring üblich ist.


                                                 51
53

Gutachten:
                                                          Technische und rechtliche Betrachtungen
                                                           algorithmischer Entscheidungsverfahren




werden, die auf Basis der trainierten internen Entscheidungsstruktur eine Entscheidung
herbeiführt. Diese interne Entscheidungsstruktur berücksichtigt nicht notwendigerweise
jedes zur Verfügung gestellte Attribut. Zusätzlich können unterschiedliche Attribute mit
gänzlich unterschiedlichen Gewichten zu einer Entscheidung beitragen. Deshalb trägt Frage
3 dazu bei, dass dieser Umstand bei der Analyse von ADM-Systemen berücksichtigt wird.
Vor diesem Hintergrund tauchte eine zusätzliche Facette auf, die bei der Frage nach
Diskriminierung berücksichtigt werden muss. Die bloße Formulierung der Frage bedeutete
noch nicht, dass diese auch einfach zu beantworten ist. Auf die Herausforderung, die
Gewichte und die interne Entscheidungsstruktur offenzulegen, wird im Kapitel „Analyse von
ADM“ noch explizit hingewiesen.

Als Ergänzung zu Frage 2 adressiert Frage 3 die Verwendung von mathematischen
Operationen und Methoden innerhalb eines ADM-Systems. Während in der vorherigen
Frage insbesondere die Verwendung von Daten, Attributen und deren Gewicht im
Vordergrund steht, zielt diese Leitfrage darauf ab die Zusammenhänge zwischen diesen
Attributen zu analysieren. Wie bereits gezeigt wurde, existieren zahlreiche unterschiedliche
Ansätze, die für maschinelles Lernen verwendet werden können.

4.4.2.1.2 Beispiele von Techniken erklärbarer Modelle

Logistische Regression

Ein weit verbreitetes Vorhersagemodell zur Klassifikation ist die in Kapitel 4.1.1 bereits
erklärte logistische Regression. Hier werden die Eingabevariablen mit statistisch gelernten
Koeffizienten-Parametern multipliziert, aufsummiert und in den Bereich zwischen 0 und 1
projiziert.

Zur Erinnerung: Wenn ŷ die Zielvariable ist (z.B. die Kreditwürdigkeit einer Person) und x1,
…, xn die Eingabevariablen sind, dann ergibt sich das Modell aus folgender Gleichung:



Die Koeffizienten w1, …, wn sind Modellparameter, deren genauer Wert aus den Daten
gelernt wird. Das griechische Symbol σ ist hierbei eine sogenannte „logistische Funktion“,
die eine beliebig große oder kleine Zahl in das Intervall zwischen 0 und 1 projiziert, um die
Kreditwürdigkeit als binäre Entscheidung abzubilden.84 Beispielsweise wird das Alter des
Antragstellers als natürliche Zahl, das Jahreseinkommen in tausend Euro als natürliche
Zahl, die Anzahl der minderjährigen Nachkommen als natürliche Zahl sowie der Ehestatus
als 0 (ledig) oder 1 (verheiratet) jeweils mit einem solchen Parameter multipliziert, das
Ergebnis aufsummiert und schließlich auf einen Wert zwischen 0 und 1 reduziert.

Das Problem ist entsprechend, die richtigen Parameter zu finden, so dass die
Regressionsgleichung für kreditunwürdige Antragsteller einen Vorhersagewert möglichst nah
an 1 und für kreditunwürdige möglichst nah an 0 ergibt. Trainingsdaten vorausgesetzt,
lassen sich diese Parameter (also ein Regressionsmodell) von Daten mit Hilfe eines
Optimierungsvorgangs lernen. Im Anschluss an den Lernvorgang können nun die Parameter
jeder einzelnen Variablen untersucht werden. Ist ihr absoluter Wert sehr klein, so hat das

84
   In diesem Beispiel handelt es sich um eine „Sigmoid-Funktion“, die beliebige Zahlen in das (0, 1)-
Intervall abbildet. Sie sind monoton steigend und nähern sich für sehr kleine Werte an die
Untergrenze und für sehr große Werte an die Obergrenze des Intervalls an. Die Zahl 0 wird
dementsprechend auf den Mittelpunkt des Intervalls (z.B. 0,5) projiziert.


                                                 52
54

Gutachten:
                                                          Technische und rechtliche Betrachtungen
                                                           algorithmischer Entscheidungsverfahren




entsprechende Attribut nur wenig bis keinen Einfluss auf die Voraussage. Ist jedoch der
Parameter weit von 0 entfernt (positiv wie negativ), so hat das Attribut entsprechend
Einfluss.

Als illustratives Beispiel für eine solche Untersuchung von gelernten Koeffizienten und ihrer
Konsequenzen im Bereich der Fair-Lending-Aufsicht in den USA verweisen wir an dieser
Stelle auf einen Artikel von Calem und Longhofer85, dessen detaillierte Tabellen von
Attributen und Koeffizienten wir hier aus Platzgründen nicht reproduzieren können.

Wir halten fest dass die logistische Regression kein Blackbox-Modell ist, da ihre Parameter
nach dem Lernprozess einfach einseh- und interpretierbar sind. Unter anderem deswegen
ist sie nach wie vor ein sehr verbreitetes Modell in allen Bereichen, in denen
Interpretierbarkeit und Transparenz wichtig sind und die Einbuße an Genauigkeit gegenüber
komplexeren Modellen verschmerzbar ist.

Entscheidungsbäume

Ein weiteres gut interpretierbares Modell sind sogenannte Entscheidungsbäume (Decision
Trees). Hierbei wird die Voraussage durch die Verzweigung von Attributprüfungen
vorgenommen. Ein solcher Entscheidungsbaum kann ebenfalls durch Daten trainiert/gelernt
werden86 und bildet im einfachen Fall das gesamte Modell.87 Entscheidungsbäume sind der
logistischen Regression in vielerlei Hinsicht überlegen. Wenn beispielsweise zwei nicht mit
der Zielvariablen korrelierte Attribute nur in Kombination zur Vorhersage beitragen, stößt die
einfache logistische Regression an ihre Grenzen.88 Entscheidungsbäume können diese
nichtlinearen Interaktionen ohne Schwierigkeiten lernen und sind einsehbar bzw. intuitiv
verständlich. Dementsprechend finden sie in vielen Bereichen Anwendung, in denen
Transparenz von durch Daten trainierten Modellen notwendig oder vorteilhaft ist.
Entscheidungsbäume sind jedoch ebenfalls nicht für alle Problem- und Datenkonstellationen
geeignet. Beispielsweise tendieren sie dazu die Trainingsdaten so gut abzubilden, dass sie
auf ungesehenen Daten deutlich ungenauer sind (sogenanntes „overfitting“). Außerdem sind
sie bei Regressionsproblemen (Vorhersage von Zahlenwerten statt binären Entscheidungen)
anderen Modelltypen unterlegen.

4.4.2.1.3 Zwischenfazit

Im Hinblick auf die Machbarkeit von an den trainierten Modellen direkt ansetzenden
Kontrollmechanismen kommen wir somit zu folgenden Ergebnissen:
   ● Nicht alle durch Daten trainierten Modelle sind von Natur aus transparent im Sinne
       der Feststellbarkeit und Abschätzbarkeit des Einflusses eines Merkmals auf die
       Vorhersage.

85
   Calem/Longhofer 2002.
86
   Gängige Lernalgorithmen sind beispielsweise C4.5 (Quinlan 1993) oder CART (Breiman et al.
2017).
87
   Es existieren auch Methoden die mehrere Bäume zu komplexeren Modellen kombinieren (sog.
Random Forests). In diesem Fall ist die Erklärbarkeit sehr stark eingeschränkt da die einzelnen
Bäume zwar einsehbar sind, die Kombinationsmethode aber berücksichtigt werden muss, zumal
diese nicht zwangsweise zum Training von intuitiv verständlichen Einzelbäumen führt (siehe Kapitel
4.1.3).
88
   Wie in Abschnitt 4.1 beschrieben existieren zur Modellierung nichtlinearer Abhängigkeiten hierzu
sog. „Kernel Tricks/Projections” mit der man die logistische Regression entsprechend erweitern kann.
Diese vergrößern die Anzahl der Attribute jedoch erheblich, was wiederum die Interpretation des
Modells erschwert.


                                                53
55

Gutachten:
                                                         Technische und rechtliche Betrachtungen
                                                          algorithmischer Entscheidungsverfahren




     ●   Das in der Verbraucherscoringpraxis weit verbreitete Verfahren der logistischen
         Regression ist ein vergleichsweise transparentes statistisches Modell, dessen
         gelernte Parameter untersuchbar sind, womit es sich gut zur Prüfung eignet. Ein
         weiteres vergleichsweise transparentes Modell sind Entscheidungsbäume.
     ●   Soweit transparente Architekturen verwendet werden, ist eine Kontrolle der Modelle
         selbst prinzipiell möglich. Diese können je nach Problem und Daten jedoch
         komplexeren, weniger transparenten Modellen in ihrer Genauigkeit und Kapazität
         unterlegen sein. Bei Verwendung von komplexeren Modellen müssen entsprechend
         zusätzliche bzw. andersartige Indizien angeführt werden, um die Konformität des
         ADM-Systems mit den rechtlichen Anforderungen zu demonstrieren (siehe nächster
         Kapitel).

4.4.2.2 Analyse eines Blackbox-Modells mit Daten
Ein Modell, das einem ADM-System zugrunde liegt, besteht im Wesentlichen aus einem
Algorithmus zur Vorhersage und trainierten Parametern. Die Wahl des Modells und die
Trainingskonfiguration (auch oft „Hyperparameter“ genannt) werden dabei von Entwicklern
und Data Scientists zu Anfang festgelegt und können auch im Nachhinein ohne einen
erneuten Trainingsvorgang nicht mehr verändert werden. So wird zu Beginn entschieden,
welcher Algorithmus fürs Maschinelle Lernen verwendet wird, z.B. neuronale Netze, Naive
Bayes oder Entscheidungsbäume. Für jeden dieser Algorithmen existieren anschließend
zahlreiche Hyperparameter, z.B. maximale Tiefe des Entscheidungsbaumes (sogenanntes
Pruning) oder Gewichtsänderungsrate des Optimierungsalgorithmus für ein neuronales
Netzwerk.89 Unter Verwendung dieser Konfiguration werden dem Algorithmus
Trainingsdaten zugespielt, die er zum Training und zur Generierung der eigentlichen
Entscheidungsstruktur verwendet. Er trainiert damit das zugrundeliegende Modell. Dies
geschieht durch mathematische Optimierung, z.B. Wahrscheinlichkeitsberechnung bei
(Naive) Bayes, oder Informationsgewinn (Information Gain) von Attributen bei
Entscheidungsbäumen etc. Die Optimierung liefert weitere Parameter, anhand derer sich
das Modell ergibt. Das Modell ist somit eine Kombination aus einer Ausgangskonfiguration
und einer Parametrisierung, die sich durch das Training ergibt.

Durch das Berechnen und Optimieren hinsichtlich der Eingabeparameter können in den
Datenbeständen komplexe Muster und Regelmäßigkeiten, aber auch Anomalien und
Unregelmäßigkeiten erkannt werden. Mit welcher Genauigkeit dies durchgeführt werden
kann, hängt sehr stark von mehreren Umständen ab, unter anderem von dem ausgewählten
Algorithmus des Maschinellen Lernens, den Ausgangsparametern und den Trainingsdaten.

Das trainierte Modell ist eine mathematische Repräsentation der Entscheidungsstruktur und
das Ergebnis eines komplexen und vielschichtigen Prozesses. In der Regel ist es jedoch ein
deterministischer Prozess, der nachvollziehbar und transparent gemacht werden kann. Das
trainierte Modell ist aufgrund seiner eindeutigen mathematischen Repräsentation auch
keinem Zufallselement unterworfen. Die mathematische Repräsentation im Falle von
Entscheidungsbäumen besteht aus logischen und arithmetischen Regeln, die auf den
Eingabeparametern ausgeführt werden. Für Algorithmen des Maschinellen Lernens, die auf
Wahrscheinlichkeiten beruhen, werden bedingte Wahrscheinlichkeiten und ein
Erwartungswert berechnet. Auch bei sehr komplexen Entscheidungsstrukturen, wie sie beim
Training von neuronalen Netzen entstehen können, liegt eine mathematische

89
   Der Begriff „Hyperparameter” wird hier verwendet, da durch sie bestimmt wird, wie das Modell die
eigentlichen Modellparameter lernt.


                                                54
56

Gutachten:
                                                           Technische und rechtliche Betrachtungen
                                                            algorithmischer Entscheidungsverfahren




Berechnungsvorschrift zugrunde, die darüber entscheidet, welche Entscheidung auf Basis
eines gegebenen Inputs zu treffen ist. Diese kann jedoch sehr komplex und nach
menschlichen Maßstäben nicht mehr nachvollziehbar bzw. interpretierbar sein. Ohne
zusätzliche Anstrengungen ist es nicht ohne weiteres möglich, die komplexen
Entscheidungsstrukturen von vielschichtigen neuronalen Netzen zu verstehen und zu
erklären. Die Entscheidungsstrukturen, die als hochdimensionale Matrizen die Gewichte und
Assoziationen zwischen den Neuronen und Schichten darstellen, sind zur Interpretation
durch einen Menschen bei Netzen nichttrivialer Komplexität im Regelfall nicht geeignet und
kommen als Erklärungskomponente dadurch nicht in Frage. Die Sichtbarmachung des
Vorhersageverhaltens großer neuronaler Netzwerke ist ein Gebiet aktiver Forschung, jedoch
nach unserer Einschätzung noch nicht weit genug entwickelt, um regulativ aufgegriffen zu
werden.

Als eine Ergänzung zur Analyse des Gesamtprozesses zur Erstellung eines Systems, das
selbstständig Entscheidungen treffen oder vorbereiten kann, ist es jedoch notwendig, auf der
Ebene des trainierten Modells die sich ergebende Entscheidungsstruktur – zumindest
anteilig – zu berücksichtigen. Die trainierten Modelle können sich sehr stark voneinander
unterscheiden.

Es existiert eine Vielzahl weiterer ML-Algorithmen und -Modelle, denen zum Teil gänzlich
verschiedene mathematische Methoden zur Repräsentation der Entscheidungsstrukturen
zugrunde liegen. Diese können auf Basis von Wahrscheinlichkeiten (z.B. Naive Bayes),
Partitionierung des Attributraumes (z.B. Support Vector Machines, Random Forests) oder
komplexen neuronalen Netzen funktionieren. Obwohl die Entscheidungsstrukturen vor allem
automatisch generiert werden und unter Verwendung von Parametern und Trainingsdaten
entstehen, lassen sich die Beziehungen zwischen den Attributen und der Einfluss auf die
Entscheidung mathematisch darstellen, wenn auch oft nicht mit einer der logistischen
Regression oder Entscheidungsbäumen vergleichbar leichten Interpretierbarkeit.

Vor dem Hintergrund der Detektion von Diskriminierung in ADM wäre es jedoch
wünschenswert, die Auswirkungen von Attributen und deren Einfluss auf die Vorhersage zu
verstehen. Eine große Herausforderung ist, dass diese Zusammenhänge oftmals nichtlinear
sind, von volatilen Lernprozessen abhängen können und der Einfluss einer bestimmten
Variablen unter Umständen nicht ohne größeren Aufwand in einem Modell lokalisiert werden
kann. Neuronale Netze beispielsweise lernen nichtlineare Interaktionen statistisch durch
Zwischenelemente (sogenannte hidden nodes) mit, ohne dass diese Zusammenhänge vor
der Optimierung klar individuellen Netzwerkelementen zugeordnet wurden. Ein trainiertes
neuronales Netz kann auf den Einfluss einer Eingabevariablen überprüft werden, jedoch ist
dies je nach Komplexität des Netzwerkes mit erheblichem Aufwand verbunden. Dies kann
dazu führen, dass Eingabe-Ausgabe-Beziehungen, obwohl sie mathematisch eindeutig
dargestellt werden können, sich einer Interpretation durch den Menschen quasi gänzlich
entziehen und entsprechende Modelle als Blackbox behandelt werden müssen.

Es existiert eine Reihe von Techniken aus der Forschung, um solche intransparenten
Modelle einsehbar zu machen, sowohl modellspezifisch90 als auch modellunabhängig.
Beispielsweise kann ein beliebiges Blackbox-Modell durch ein Whitebox-Modell „simuliert“
werden (also ein „Modell eines Modells“91). Zunächst trainiert man ein intransparentes
Modell und benutzt es anschließend, um einen Datensatz vorherzusagen. Die Vorhersagen
werden dann als neue Zielwerte eingesetzt (inklusive der Fehler) und ein transparentes

90
     Siehe z.B. für neuronale Netze Andrews et al. 1995.
91
     Siehe z.B. Adler et al. 2018.


                                                   55
57

Gutachten:
                                                        Technische und rechtliche Betrachtungen
                                                         algorithmischer Entscheidungsverfahren




Modell (z.B. ein Entscheidungsbaum) wird auf diesen modifizierten Daten trainiert. Im
Idealfall schafft das transparente Modell eine nahezu perfekte Emulation des Blackbox-
Modells und erlaubt so Einsicht in den Entscheidungsprozess. Diese Methode basiert
allerdings unter anderem auf der Annahme, dass beide Modelle eine vergleichbare
Lernkapazität haben, was nicht zwangsläufig der Fall ist. Auch müssen sich das
Vorhersageproblem und der Datensatz prinzipiell dafür eignen.

4.4.2.2.1 Analyse der Entscheidung auf Instanzebene

Die dritte und abschließende Ebene, auf der ADM analysiert werden kann, um ein
vollumfängliches Bild zu bekommen, ist die Instanzebene. Auf dieser sind die
Entscheidungen von ADM inklusive des trainierten Modells in Bezug auf einen konkreten
Datensatz (also eine Menge von Einzelinstanzen von Entscheidungen) verortet. Während
sich die Analyse des ADM-Prozesses vor allem darauf beschränkt, alle zur Entwicklung und
Nutzung eines ADM-Systems notwendigen Schritte transparent und nachvollziehbar zu
machen, werden auf der Instanzebene Transparenzkriterien zur Nachvollziehung einer
einzigen, für sich abgeschlossenen Entscheidung gesammelt und analysiert. Analog kann
diese Ebene auch von der Modellebene abgegrenzt werden, da dort die datenunabhängige
Analyse der Modellstruktur selbst im Vordergrund steht.

Um den Nachweis der Diskriminierung zu erbringen bzw. zu widerlegen, ist es nicht
zwingend notwendig, das trainierte Modell in all seinen Details zu verstehen bzw. vollständig
transparent zu machen. Wie im vorangehenden Kapitel erläutert, ist dies oftmals auch nicht
trivial bzw. nur durch sehr großen Aufwand zu bewerkstelligen. Es wäre daher sehr
erstrebenswert, ADM-Systeme derart zu konstruieren, dass sie für einzelne Entscheidungen
neben der Vorhersage auch Informationen dazu liefern, welche Attributwerte der
Entscheidungsinstanz (oder deren Kombinationen) für die Entscheidung relevant sind und
wie sie durch Modellparameter gewichtet werden. So kann eine interpretierende Person
Indizien dafür bekommen, welche Attribute ausschlaggebend für eine Entscheidung waren
und welche nicht. Vor dem Hintergrund der Vermeidung von Ungleichbehandlung ist eine
solche Funktionalität sehr nützlich. Wie bereits erklärt, erfreut sich die logistische Regression
gerade deswegen großer Beliebtheit, weil die intuitive mathematische Struktur einer solchen
Sichtung der „Entscheidungsgründe“ sehr nahe kommt.

Im Rahmen der noch sehr jungen Disziplin der sogenannten Explainable Artificial
Intelligence (XAI) werden Methoden und Ansätze entwickelt, die solche Aussagen über
Entscheidungen eines Systems zulassen bzw. ermöglichen. Idealerweise müssen dafür die
zugrundeliegenden trainierten Modelle nicht offengelegt werden, sondern die Verfahren
behandeln das ADM-System als eine Blackbox und versuchen über intelligente Abfrage- und
Testmechanismen die möglicherweise komplexe innere Struktur zu approximieren. Ein
solches Verfahren, welches 2016 vorgestellt wurde, heißt „LIME – Local Interpretable Model-
agnostic Explanations“92. Vereinfacht ausgedrückt wird die Entscheidungsstruktur, also das
trainierte Modell, im Bereich einer einzelnen Entscheidung durch eine einfache lineare
Funktion angenähert. Diese Approximation wird dadurch generiert, dass man für einen
bestimmten vorliegenden Datensatz (Instanz) einzelne Attribute ein- und ausblendet bzw.
permutiert und das Ergebnis der Entscheidung bzw. die Änderungen der Entscheidung
aufzeichnet. Aus dieser Abbildung zwischen Eingabedaten und Entscheidung wird die innere
Struktur punktuell angenähert, jedoch nicht vollumfänglich erfasst. Diese Annäherung und
die darauf basierende Interpretation dürfen deshalb nur mit Vorsicht erfolgen. Es handelt
sich um eine lokale Approximation, weil der Ausgangspunkt ein bestehender Datenpunkt ist.

92
     Ribeiro et al. 2017.


                                               56
58

Gutachten:
                                                     Technische und rechtliche Betrachtungen
                                                      algorithmischer Entscheidungsverfahren




Dieses Verfahren ist ein möglicher Startpunkt, um Indizien der Entscheidungsstrukturen für
komplexe trainierte Modelle zu bekommen. Mit zunehmender gesellschaftlicher Relevanz
müssen noch mehr solcher Verfahren entwickelt und implementiert werden. Die zusätzliche
Transparenz, die man durch solche Verfahren bekommt, stellen weitere Indizien und
Methoden dar, die auf eine Diskriminierung in ADM hinweisen können.

4.4.2.2.2 Illustration am Beispiel Kreditscoring

Für den komplexen Bereich des Kreditscorings ist die Differenzierung insoweit hilfreich und
notwendig, als die zugrundeliegenden Entscheidungsstrukturen transparent gemacht
werden. Darüber hinaus wird für Verfahren, die sich für eine Codeanalyse nicht eignen, der
Lebenszyklus, also das Erstellen, Trainieren und Anwenden, dargestellt.

Analyse des Prozesses

Das      ausgewählte     Verfahren    für  Kreditscoring   muss    benannt       werden.
Anforderungsdokumente wie Pflichten- und Lastenhefte beschreiben die grundlegenden
Funktionalitäten und damit strategische Entscheidungen, die dem Einsatz des ADM
zugrunde liegen. Auf der Prozessebene lassen sich auch die Datensätze identifizieren, die
zum Training des Verfahrens verwendet wurden. Damit lassen sich möglicherweise auch
Biases erkennen, die in den Daten bereits angelegt sind (z.B. statistische Tests). Die
Vorverarbeitung der Daten, wie beispielsweise das Umwandeln von metrischen Skalen in
Ordinalskalen und das Profiling, kann offengelegt werden und indiziell für eine
Diskriminierung sein. Die Analyse des Prozesses, in dem das ADM-System erstellt wird, ist
also in jedem Fall und unabhängig von dem verwendeten Algorithmus möglich.

Analyse des Modells

Die akquirierten Daten werden verwendet, um ein Modell zu trainieren, das sich je nach
verwendetem Modell einer tiefergehenden und vom Menschen einfach zu interpretierenden
Analyse entzieht. Wird nachweislich ein Verfahren eingesetzt, das die zur Verfügung
stehenden Attribute in einen komplexen Datenraum transformiert (z.B. SVM oder neuronales
Netz), so wird es schwierig die Entscheidungsstrukturen sowie die Gewichte zu analysieren.
Werden hingegen Entscheidungsbäume oder andere regelbasierte Verfahren verwendet, so
ist es durchaus möglich, dass eine Analyse der Modelle durch den Menschen
aufschlussreich ist und für Diskriminierung problematische (Teil-)Entscheidungen entdeckt
werden können.

Analyse der Entscheidung auf Instanzebene

Auch ohne möglicherweise schützenswerte Geschäftsgeheimnisse über die verwendeten
ADM offenzulegen, existieren Verfahren, z.B. (Metamorphic) Testing, die es erlauben eine
Einzelentscheidung des ADM hinsichtlich Diskriminierung zu beleuchten. Ein Vorteil von
ADM ist unter anderem, dass die Entscheidungsfindung kostengünstig ist und keine
manuelle Interaktion erfordert. Für eine algorithmische Entscheidung, bei der davon
ausgegangen werden kann, dass z.B. anhand des Geschlechts diskriminiert wurde, kann
man das Geschlecht verändern (ceteris paribus), sodass man untersuchen kann, ob dies zu
einem anderen Ergebnis führt. Hierzu muss man keine weitere Information über die zum
Training verwendeten Daten oder das Modell offenlegen. Von einem technischen
Standpunkt ist eine wohldefinierte Schnittstelle erforderlich, die solche Abfragen zulässt.
Diese Schnittstelle muss nicht notwendigerweise der Öffentlichkeit zugänglich sein, sondern
kann auch nur von Aufsichtsbehörden und zertifizierten Stellen verwendet werden.



                                               57
59

Gutachten:
                                                    Technische und rechtliche Betrachtungen
                                                     algorithmischer Entscheidungsverfahren




Für den vorliegenden Untersuchungsgegenstand der Diskriminierung durch Algorithmen im
Rahmen von Bonitätsprüfung (Kreditscoring), und überhaupt bei verbraucherrelevanten
automatisierten Entscheidungen, sind die Analyse und die Interpretierbarkeit der
Entscheidung auf Instanzebene (sowohl anhand eines einzelnen Datensatzes als auch
durch Mengen von Testdaten) die zielführendste und vermutlich aussagekräftigste Methode.
Dahingehend lautet die Empfehlung, den Fokus auf die Analyse dieser Ebene zu setzen. Für
die umfassende Nachvollziehbarkeit des Verhaltens eines ADM-Systems dürfen die beiden
anderen Ebenen jedoch nicht vernachlässigt werden.

4.4.2.2.3 Zwischenfazit

Die Analyse von ADM-Systemen muss auf drei Ebenen geschehen, die ineinandergreifen
und erheblich zum Verhalten eines ADM-Systems beitragen. Daraus folgt:
   ● Jeder Schritt bei der Erstellung des ADM-Systems trägt zu dessen Gesamtverhalten
       bei, muss also dokumentiert bzw. beschrieben werden, um das Gesamtverhalten
       nachvollziehen zu können.
   ● Probleme, die bereits bei der Datenerhebung auftreten (z.B. Biases oder
       unvollständige Daten), können beim Training von ML-Verfahren zu unerwünschtem
       Verhalten (Fehlern) führen.
   ● Nicht jedes ML-Verfahren ist zur Erklärung und zur Interpretation durch den
       Menschen geeignet.
   ● Auch wenn das trainierte Modell nicht mehr erklärt werden kann, gibt es Verfahren,
       um Einzelentscheidungen nachzuvollziehen.
   ● Techniken zur „Sichtbarmachung“ von intransparenten Modellen existieren, sind
       indes ein Feld aktiver Forschung und gegenwärtig nicht reif zur verpflichtenden
       Anwendung.

4.4.3 Testen von ADM-Software
4.4.3.1 Grundlagen des Testens von Software
Innerhalb der Disziplin System und Software Engineering, also des übergeordneten
wissenschaftlichen Feldes, das sich mit dem Design, dem Entwurf und der Implementierung
von Softwaresystemen beschäftigt, kennt der Lebenszyklus von Software, und damit von
Systemen, die für ADM eingesetzt werden, mehrere Phasen. Diese Phasen lassen sich
Kategorien zuordnen, wobei mindestens eine davon der Qualitätssicherung und -sicher-
stellung dient. Unterschiedliche Verfahren zur Qualitätssicherung von Software, die in den
letzten Jahrzehnten entwickelt wurden, sind mittlerweile etabliert und zur Grundlage
modernen Software Engineerings geworden. Ein Standardverfahren dabei ist das
sogenannte      Testen    von     Software.   Dabei     handelt   es    sich   um     eine
Qualitätssicherungsmaßnahme, ähnlich zur Auditierung, bei der ein Softwaresystem eine
vorab definierte Eingabe erhält und daraus eine Ausgabe generiert. Die Ausgabe wird
anschließend nicht mit einem notwendigerweise vorab definierten Wert verglichen, sondern
z.B. mit den Ergebnissen aus anderen Tests, die zur Laufzeit durchgeführt werden.

Gerade beim Testen komplexer und großer Softwaresysteme unterscheidet man
Testverfahren, die verschiedene Aspekte und Bereiche eines Systems überprüfen. Man
differenziert zwischen mindestens drei Klassen von Testverfahren:

   ●   Unit Test: Beim Unit Test wird eine spezifische Menge von Softwarecode,
       üblicherweise auf der Ebene von Funktionen, getestet. Zu einer Funktion werden in



                                           58
60

Gutachten:
                                                     Technische und rechtliche Betrachtungen
                                                      algorithmischer Entscheidungsverfahren




       der Regel mehrere Testfälle geschrieben, um die Funktionalität hinsichtlich Grenz-
       und Sonderfällen zu beschreiben.

   ●   Integrationstest: Bei dem Integrationstest wird das Zusammenspiel von Modulen
       und Funktionen, die im Produktivsystem zusammenarbeiten, getestet. Die korrekte
       Funktion auf der Modulebene wurde bereits überprüft und die korrekte Funktion auf
       einer höheren Ebene, z.B. Gruppe, wird beim Integrationstest sichergestellt.

   ●   Systemtest: Bei dem Systemtest wird ein Gesamtsystem mit all seinen
       Komponenten und Funktionen überprüft. Die Überprüfung komplexer und abstrakter
       Systemeigenschaften sowie der Interaktion mit anderen Systemen steht hier im
       Mittelpunkt.

Beim Testen steht immer die Überprüfung funktionaler Eigenschaften eines (Sub-)Systems
im Vordergrund. Diese können z.B. sein: eine bestimmte Ausgabe für eine wohldefinierte
Eingabe oder eine maximale Laufzeit für die Berechnung eines wohldefinierten Ablaufs etc.
Üblicherweise vergleicht man das Ergebnis eines Testfalls mit einem vorab definierten
Ergebnis und entscheidet auf Basis dieses Vergleichs, ob ein Test erfolgreich oder nicht
erfolgreich war.

Im Bereich der Diskriminierung durch ADM könnte dies z.B. derart erfolgen, dass man dem
ADM einen fiktiven Datensatz als Eingabe zur Verfügung stellt und das Ergebnis analysiert.
Ein einfaches Testverfahren könnte dann innerhalb des Datensatzes eine Änderung an
einem Datumswert vornehmen, z.B. dem Geschlecht, und diesen geänderten Datensatz
dem ADM erneut zur Verfügung stellen. Das Ergebnis kann nun mit dem vorherigen
Ergebnis verglichen werden, um die Abweichung dahingehend zu bewerten, ob sie indiziell
für eine mögliche Diskriminierung ist.

Das Attraktive an Tests ist, dass sie nicht notwendigerweise von Menschen durchgeführt
werden müssen, sondern sehr gut automatisierbar sind. Das bedeutet, dass sich Experten
die Testfälle überlegen und wiederum als Computerprogramme verfassen. Dies hat den
großen Vorteil, dass sie sehr günstig angewendet und durchgeführt werden können.

Nachfolgend soll noch weiterführend auf die Herausforderungen des Testens von ADM
eingegangen werden sowie auf moderne Methoden, die für das Überprüfen der
Funktionsweise von ADM hilfreich sein können.

4.4.3.2 Herausforderungen beim Testen von ADM
Beim Testen herkömmlicher Softwareprogramme wird ein Datensatz definiert und erzeugt,
der dem zu testenden Programm zur Verfügung gestellt wird. Auf Basis dieses Datensatzes
wird eine Ausgabe (Ist) erzeugt, die mit einer vorab festgelegten Ausgabe (Soll) verglichen
wird. Im Erfolgsfall stimmen beide Ausgabewerte (Soll und Ist) überein; der Test war
erfolgreich. Weicht der Soll-Wert vom Ist-Wert ab, so schlägt der Test fehl und das
Programm verhält sich nicht wie vorab erwartet.

Dieses Grundprinzip lässt sich auch auf das Testen von ADM übertragen. Wie oben
skizziert, kann ein fiktiver Datensatz erstellt werden, der von dem ADM klassifiziert wird.
Geringe Permutationen an sensiblen Attributen (Features), z.B. Geschlecht, ethnische
Herkunft oder Alter (siehe § 1 AGG), können ohne weiteres durchgeführt und die
Veränderungen in den Entscheidungen beobachtet werden. Die Bewertung, ob ein ADM
diskriminiert, ist jedoch nicht trivial. Insbesondere deshalb, weil die Anzahl der



                                            59
61

Gutachten:
                                                         Technische und rechtliche Betrachtungen
                                                          algorithmischer Entscheidungsverfahren




Permutationsmöglichkeiten sehr groß werden kann und die entfernte/permutierte Information
auch über Proxyvariablen im Modell verbleiben kann.

Beispiel: Ein einfaches ADM-System trifft Entscheidungen und bekommt drei verschiedene
Attribute dafür zur Verfügung gestellt:

1.         Alter in Jahren: eine ganze Zahl zwischen 0 und 120 Jahren

2.         Geschlecht aus einer Auswahl: „männlich“, „weiblich“, „ohne Angabe“

3.         Migrationshintergrund aus einer Auswahl: „ja“ oder „nein“

4.         Jahreseinkommen: eine ganze Zahl zwischen 0 und 1000 (in tausend Euro)

Mit diesem einfachen Beispiel lassen sich bereits 720 000 (= 120 x 3 x 2 x 1000)
verschiedene Datensätze produzieren, die dem System möglicherweise zur
Entscheidungsfindung vorgelegt werden. Nicht selten werden jedoch metrische Attribute,
z.B. das Alter, auf Kategorien reduziert, etwa „minderjährig“ und „volljährig“. Damit verringert
sich die Menge der möglichen Datensätze bereits enorm. Entscheidend ist jedoch, dass die
Menge nichtlinear mit den zur Verfügung stehenden Attributen ansteigt. Im Zeitalter der
Digitalisierung, in der E-Commerce-Herstellern unzählige Attribute von Benutzern zur
Verfügung stehen, spielt dies eine große Rolle. Ein öffentlich verfügbarer Trainingsdatensatz
zum Testen von unterschiedlichen Verfahren im Bereich Kreditscoring beinhaltet 14
unterschiedliche Attribute mit vorwiegend metrischer Ausprägung – damit ist die Menge der
möglichen Datensätze sehr groß. Falls keine Obergrenze für ein metrisches Attribut, z.B.
das Gehalt, festgelegt ist, ist sie sogar unendlich. Der Datensatz ist unter folgender URL
zugänglich (28. Mai 2018): https://github.com/gastonstat/CreditScoring.

Eine weitere Herausforderung, die sich beim Testen von ADM stellt, ist das sogenannte
Orakel-Problem. In der Praxis ist es oftmals nicht möglich, die erforderlichen Testdaten zu
erstellen bzw. zu einem Testdatensatz die tatsächlich richtige Ausgabe festzulegen. Ein
Orakel dient zur Veranschaulichung für ein Konzept, das allwissend ist und die richtige
Ausgabe für jede Eingabe kennt. In der Praxis kann es ein solches jedoch aus
verschiedenen Gründen nicht geben93. Üblicherweise legen Menschen die Ausgabe (Soll-
Wert) fest, was für sehr große Datenmengen durchaus schwierig werden kann. Des
Weiteren kann nicht sichergestellt werden, dass Menschen für Datenmengen mit sehr vielen
unterschiedlichen Parametern den richtigen Ausgabewert festlegen können. Insofern ist das
Erstellen von Testdatenmengen eine größere Herausforderung, als man zunächst vermuten
möchte.

Beim Erstellen von Testdatenmengen sind verschiedene Aspekte zu berücksichtigen. Zum
einen ist die Grundannahme Maschinellen Lernens, dass Trainings- und Testdaten zwar
nicht identisch sind, jedoch auf der gleichen bzw. ähnlichen Verteilung beruhen, die die
Population repräsentativ abbilden soll. Ist dies nicht der Fall, sind die Evaluierungsmetriken
unter Umständen nicht aussagekräftig. Es kann jedoch unter bestimmten Bedingungen
sachdienlich sein, die Zusammensetzung der Testdaten bestimmten weiteren
Beschränkungen zu unterwerfen. Beispielsweise kann es für einen intuitiv interpretierbaren
Test eines Klassifikationsmodells vorzuziehen sein, Testdaten je zur Hälfte aus positiven
und negativen Instanzen zu bilden (z.B. gleich viele kreditwürdige und nicht kreditwürdige
Männer und Frauen), obwohl in den Trainingsdaten weniger positive als negative Instanzen
93
     Barr et al. 2014.


                                                60
62

Zur nächsten Seite