gi-studie-algorithmenregulierung

Dieses Dokument ist Teil der Anfrage „Gutachten des Sachverständigenrats für Verbraucherfragen

/ 195
PDF herunterladen
Gutachten:
                                                        Technische und rechtliche Betrachtungen
                                                         algorithmischer Entscheidungsverfahren




   dass bestimmte Eingabewerte an diese Funktion weitergereicht werden, die dann eine
   Vorhersage berechnet und dabei Parameter verwendet, welche auf der Basis des
   Trainingsdatensatzes optimiert wurden. An dieser Stelle wird nochmals offensichtlich,
   dass die ausgewählten Trainingsdaten (Data acquisition und Pre-processing)
   maßgeblich darüber entscheiden, wie Entscheidungen über noch unbekannte (neue)
   Daten getroffen werden.

   5. Post-processing: Im Anschluss an das Trainieren und Auswerten der Funktion in
   Bezug auf einen neuen Datensatz kann der Ausgabewert der Funktion unter Umständen
   noch nachbearbeitet werden. Dies ist insbesondere dann der Fall, wenn eine Funktion
   einen metrischen Wert zurückliefert (z.B. bei Regressionen), die finale Entscheidung
   aber eine binäre Entscheidung (Ja/Nein) sein soll. Hier können anstatt einer logistischen
   Funktion (siehe 4.1.1) auch Schwellenwerte angesetzt werden, die entsprechend den
   Ausgang einer Entscheidung bestimmen oder empfehlen. Viele Implementierungen
   liefern einen Zahlenwert zu ihrem Ergebnis, der darüber Auskunft gibt, wie „sicher“
   (Konfidenz) sich das Modell bei dieser Entscheidung war. Veranschaulichen kann man
   es sich an einem vereinfachten Beispiel: Wenn eine Entscheidung zu einem Datensatz
   getroffen werden soll, der so oder ganz ähnlich sehr häufig in den Trainingsdaten
   auftaucht und dort zu immer der gleichen Entscheidung geführt hat, so kann über diesen
   neuen Datensatz normalerweise auch confident entschieden werden. Sind die Attribute
   aber sehr verschieden von jenen innerhalb der Trainingsdaten, oder sind über diese
   Ausprägung der Attribute nur sehr wenige Datenpunkte verfügbar, so sinkt die Konfidenz
   und auch die Zuverlässigkeit des Ergebnisses kann abnehmen. Verschiedene ML-
   Modelle haben unterschiedliche Methoden und Fähigkeiten, um mit in den
   Trainingsdaten mehr oder weniger dicht abgedeckten Bereichen des Attributraums
   umzugehen.

Die oben genannten Überlegungen betten das ADM in einen sehr komplexen Prozess ein, in
dem jeder Schritt mitentscheidend für das schlussendliche Entscheidungsverhalten ist. Der
Prozess entspricht einem Standard von 1996 und ist wasserfallartig angelegt. Das bedeutet,
dass er Schritt für Schritt durchlaufen wird. In der Praxis laufen diese Prozesse komplexer
ab, da noch zusätzliche Iterationen verwendet werden. Als ein etablierter Industriestandard
hat sich der Cross-industry standard process for data mining (CRISP-DM) durchgesetzt81.

Praxis: Wir führten ein Gespräch mit der Schufa Holding AG, welche Verbraucherdaten
sammelt und Bonitätsprüfungen (Kreditscoring) mit ML-Verfahren durchführt. Der dort
stattfindende Prozess lässt sich mit der hier vorgestellten Methode abbilden.

1. Data acquisition: Daten über Kreditnehmer werden erhoben, von Geschäftspartnern
geliefert oder anderweitig besorgt. Umfangreiche Datenbanken über Personen werden
gepflegt. Sie stellen die Grundlage für die Analysen und Vorhersagemodelle (logistische
Regression) dar.




der Praxis wird dies mit Hilfe von Programmen zur zufälligen Generierung von Zahlen nach
bestimmten mathematischen Verfahren implementiert. Diese wiederum lassen sich optional durch
einen Startwert so parametrisieren, dass sie reproduzierbar die gleiche Sequenz an Zufallszahlen
generieren. Zufall kann im Modelltraining also eine Rolle spielen, jedoch existieren Methoden, um
dennoch, falls gewünscht, Reproduzierbarkeit im Trainingsprozess herzustellen.
81
   Kurgan/Musilek 2006; Mariscal et al. 2018.


                                               47
49

Gutachten:
                                                     Technische und rechtliche Betrachtungen
                                                      algorithmischer Entscheidungsverfahren




2. Pre-processing: Die gesammelten Daten über Personen werden aufbereitet. Fehlende
Datumswerte werden ergänzt und Ausreißer bzw. fehlerhafte Daten müssen erkannt und
entfernt werden, um das Ergebnis nicht zu verfälschen.

3. Transformation: Daten aus unterschiedlichen Quellen müssen unter Umständen auch
harmonisiert und vereinheitlicht werden. Hierzu zählt auch das Aggregieren von Attributen,
z.B. um die durchschnittliche Zahlungsdauer auf Basis von vielen Zahlungen zu berechnen.

4. Training & application of AI model: Die Attribute einer Person werden in einem ML-
Verfahren, in diesem Fall einer logistischen Regression, verarbeitet. Das Verfahren besteht
aus einem Algorithmus, der im Kern eine mathematische Operation ausführt. Die Gewichte
der jeweiligen Attribute werden in der Trainingsphase bereits ermittelt. Diese werden in
sogenannten Score Cards repräsentiert. Auf Basis des Inputs, der gesammelten Daten einer
Person, wird ein Output, die Ausfallwahrscheinlichkeit, berechnet.

5. Post-processing: Die Ausfallwahrscheinlichkeit wird einem Geschäftspartner zur
Verfügung gestellt, der darauf aufbauend eine Entscheidung über die Kreditwürdigkeit einer
Person trifft. Der Score wird damit zu einer wichtigen Variablen innerhalb des
Entscheidungsprozesses.

Dieser Prozess ist in der untenstehenden Abbildung dargestellt. Noch stärker als der soeben
erläuterte KDD-Prozess bezieht der CRISP-DM Anforderungen aus dem Geschäftsfeld mit
ein, die ganz zu Beginn des Prozesses erhoben werden („Business Understanding“).
Anschließend werden die verfügbaren Daten analysiert und gegebenenfalls noch erhoben
(„Data Understanding“). Hierin zeigt sich auch eine Schwäche des CRISP-DM gegenüber
dem oben diskutierten Vorgehensmodell: Die Erhebung der Daten („Acquisition“) wird nicht
mehr explizit berücksichtigt, sondern implizit angenommen oder als eine vorgelagerte
Operation verstanden, was der Komplexität des Gesamtproblems nicht gerecht wird. Hier
können sich zwei Probleme ergeben. Zum einen können die erhobenen Daten nicht
repräsentativ für die praktische Anwendung sein, wodurch die Wahrscheinlichkeit von
inhaltlich unrichtigen Entscheidungen möglicherweise erhöht wird. Zum anderen kann die
Erhebung unausgewogene Daten produzieren, welche zu einem unausgewogenen
Entscheidungsverhalten führen können. Repräsentativität und Unausgewogenheit (Biases)
hängen zwar oft zusammen, sind aber prinzipiell getrennte Probleme. Repräsentative Daten
können durchaus unausgewogen sein, was in der Gestaltung des Lernverfahrens zu
berücksichtigen ist. Es ergibt sich daher, dass Datenerhebung und Modelltraining stark
zusammenhängen und ein ADM-Prozessmodell beide Aspekte und ihre Interaktion
berücksichtigen sollte (vgl. Kapitel 4.2).




                                            48
50

Gutachten:
                                                            Technische und rechtliche Betrachtungen
                                                             algorithmischer Entscheidungsverfahren




                                                                                    82
                     Abbildung 3: Cross-industry standard process for data mining

Der CRISP-DM stellt den industriellen Einsatz von Datenanalyse und Machine Learning
stärker in den Vordergrund. Dies zeigt sich insbesondere durch die Abbildung der Aktivitäten
„Business Understanding“, „Data Understanding“ und „Deployment“. Für die Praxis stellen
die Aktivitäten wichtige Schritte bei der Entwicklung von ADM-Systemen dar. Bei der
Detektion und zur Vermeidung von nicht ausgewogenem Vorhersageverhalten von ADM-
Systemen spielen diese indes keine bzw. nur eine untergeordnete Rolle. Die Vermeidung
von unzulässiger Ungleichbehandlung kann jedoch schon sehr früh in dem Prozess als eine
funktionale Anforderung erklärt und bei der Aktivität „Data Understanding“ berücksichtigt
werden. Sinnvolle Fragen könnten darauf abzielen, ob die vorliegenden Daten repräsentativ
sind und ob alle Klassen und Attribute ausreichend abgebildet sind, um einen zu starken
Bias bei der nachfolgenden Modellierung zu vermeiden (vgl. Kapitel 4.2.1). Die beiden
Phasen „Data Preparation“ und „Modeling“ beinhalten den DM-Prozess von Fayyad (siehe
oben). Diese stehen auch im CRISP-DM in einem wechselseitigen Abhängigkeitsverhältnis
und bedingen sich gegenseitig.

Die Erläuterungen zeigen, dass es möglich ist, Fragen nach Ungleichbehandlung und
Fairness im Prozess der Erstellung von ADM-Systemen zu berücksichtigen. Insbesondere in
den frühen Phasen der Systemerstellung, Datenerhebung und Datenaufbereitung ist darauf
zu achten, eine systematische Ungleichbehandlung zu vermeiden. Grundvoraussetzung
dafür ist eine Sensibilisierung für eine Ungleichbehandlung durch Algorithmen. Hinzu
kommen Audit- und Testverfahren, die verwendet werden können, um das Verhalten eines
ADM-Systems exakt zu beschreiben (siehe Kapitel 4.4). Eine Konkretisierung in Hinblick auf
Fragestellungen des Kreditscorings bzw. verbraucherschutzrechtlicher Systeme bleibt hier
noch offen, da es kaum möglich ist pauschale Antworten ohne genaue Kenntnis der
Systeme und der zugrundeliegenden Anforderungen („Business Understanding“) zu geben.
Auf Basis der Überlegungen zur Analyse und Differenzierung des ADM-Prozesses werden
im nächsten Kapitel die Möglichkeiten zur Analyse des trainierten Modells betrachtet. Dies
betrifft vor allem den vierten Schritt („Training & application of AI Model“) in dem oben
vorgestellten Prozess von Fayyad.


82
     Illustration von Kenneth Jensen [CC BY-SA 3.0], via Wikimedia Commons.


                                                  49
51

Gutachten:
                                                      Technische und rechtliche Betrachtungen
                                                       algorithmischer Entscheidungsverfahren




4.4.2 Technische Analyse von Machine-Learning-Modellen
Im folgenden Kapitel wird auf die Möglichkeiten, aber auch die Herausforderungen der
Analyse von Verfahren zur algorithmischen Entscheidungsfindung (ADM) auf Basis von
Maschinellem Lernen eingegangen. Hierbei wird insbesondere zwischen Whitebox- und
Blackbox-Sichten unterschieden. Außerdem wird anhand anschaulicher Beispiele illustriert,
welche Methoden zur Sichtbarmachung von Entscheidungsstrukturen verwendet werden
können und welche Herausforderungen sich ergeben.

4.4.2.1 Analyse eines Whitebox-Modells ohne Daten
4.4.2.1.1 Erklärung von Modellen in ADM-Systemen

Dass ein System, das automatisch und auf Basis von trainierten mathematischen Modellen
Entscheidungen trifft diese anschließend erklären soll, ist keinesfalls selbstverständlich. In
anderen Disziplinen, insbesondere in der früheren Forschung im Bereich Künstlicher
Intelligenz, wurde dieser Anspruch schon früher gestellt. Bei sogenannten
Expertensystemen, also in Systemen, in denen Fachwissen explizit modelliert und
formalisiert wird, wird die Erklärungskomponente als ein zentraler Bestandteil des
Gesamtsystems betrachtet und trägt wesentlich zu seinem Nutzungswert bei. Für ADM unter
Benutzung von statistischen bzw. ML-Modellen muss der Brückenschlag zwischen Erklärung
und Technologie aber erst noch grundlegender verstanden und beschrieben werden.
Hilfreich scheinen hier Leitfragen zu sein, anhand derer die notwendigen Richtungen
vorgegeben werden, hinsichtlich derer die Rolle von Erklärungen differenziert betrachtet und
der Einfluss auf Technologie konkreter beschrieben werden kann.

Ein konstruktiver Vorschlag für Leitfragen wurde beispielsweise von David Gunning (2017)
im Rahmen einer Präsentation von Explainable Artificial Intelligence (XAI) durchgeführt. Im
Folgenden benutzen wir diese als Grundlage für die Formulierung von konkreten Fragen, die
es erlauben die technische Machbarkeit eines Algorithmengesetzes und die Regulierung von
ADM zu prüfen:

1. Warum hat das ADM eine bestimmte und keine andere Entscheidung getroffen?

Frage 1 zielt auf das konkrete Entscheidungsverhalten eines ADM ab und legt das
Hauptaugenmerk auf die getroffene Entscheidung im Verhältnis zur Menge der potenziell
möglichen Entscheidungen. Diese Menge aller möglichen Entscheidungen lässt sich in der
Regel nur vor dem Hintergrund des Sachproblems ermitteln, dem das ADM-System dienen
soll. Für Fragestellungen der Bonitätsprüfung in dem Bereich Kreditscoring wird
üblicherweise ein Zahlenwert berechnet, der die Kreditwürdigkeit einer Person repräsentiert.
An einer Stelle des Entscheidungsprozesses wird dieser Zahlenwert (Score) auf eine Ja-
oder-Nein-Entscheidung reduziert. Die Frage, ob jemand einen Kredit bekommt oder nicht,
hängt damit oftmals unmittelbar mit dem Credit-Score zusammen, auch wenn für die
endgültige Entscheidung noch zusätzliche Faktoren berücksichtigt werden. Um zu erläutern,
warum eine Entscheidung getroffen wurde, ist es deshalb notwendig zu klären, welche
Entscheidungsmöglichkeiten ein ADM-System hat und welche Faktoren während des
Entscheidungsprozesses berücksichtigt werden.

2. Für welche Menge von Entscheidungen funktioniert das ADM (nicht)?

Um die Nutzungspotenziale und Grenzen algorithmischer Entscheidungsfindung in einem
Sachproblem einzuschätzen und konstruktiv zu beschreiben, gilt es die Menge von Fällen


                                             50
52

Gutachten:
                                                          Technische und rechtliche Betrachtungen
                                                           algorithmischer Entscheidungsverfahren




einzugrenzen, für die ein entwickeltes ADM-System richtige Entscheidungen treffen kann.
Diese Grenzen ergeben sich aus vielerlei Faktoren. Eine Grundannahme im Gebiet des
Maschinellen Lernens ist etwa, dass die Verteilung der Testdaten (d.h. die in der Benutzung
eingegebenen Daten zur Entscheidung) weitestgehend der Verteilung der Trainingsdaten
folgt. Ein Kreditscoringsystem, das anhand von Daten einer bestimmten Region trainiert
wurde, kann in einer anderen Region möglicherweise nicht ohne Anpassung angewendet
werden. Auch sollten die Daten strukturell mit dem Modell kompatibel sein und keine
unerwarteten Lücken, Falschinformationen oder Messfehler enthalten.

Die schwierigste Abschätzung in diesem Zusammenhang ist die Identifikation von Bereichen
des Attributraumes, in dem das Modell ungenau ist, entweder weil es zu wenig
Trainingsbeispiele in diesem Bereich zur Verfügung hatte, das Modell technisch zu limitiert
ist, die Phänomene in den Daten zu erfassen, oder weil die Trainingsdaten selbst unsauber
oder inkohärent sind. Idealerweise sollte ein ADM-System derart konstruiert sein, dass es
zusätzlich zur getroffenen Entscheidung auch noch Auskunft über die Konfidenz geben
kann, also über die eigene „Zuversicht“ in die Richtigkeit der Vorhersage.83 Dies erlaubt die
Unterscheidung in eine Menge von Eingaben, für die das System eine richtige Entscheidung
trifft und sich dabei auch sehr sicher ist (hohe Konfidenz), und solche Eingaben, für die das
System erkennt, dass es auf Basis der trainierten Entscheidungsstrukturen nicht mit hoher
Konfidenz auf richtige Ergebnisse schließen kann. Letzteres erlaubt beispielsweise manuelle
Kontrollmechanismen.

Wichtig ist hier die Unterscheidung zwischen richtigen Ergebnissen, Ergebnissen mit hoher
Konfidenz und nichtdiskriminierenden Ergebnissen. Diese drei Charakteristika richtig/falsch,
hohe/niedrige Konfidenz        und   diskriminierend/nichtdiskriminierend  hängen      nicht
notwendigerweise voneinander ab und beschreiben unterschiedliche Aspekte einer
Entscheidung. So kann eine „richtige“ Entscheidung aus Sicht des maschinell trainierten
Systems getroffen werden, die dennoch diskriminierend ist. Ohne ein geeignetes Maß zur
Bewertung von Diskriminierung spiegelt das System nur den Trainingszustand und die
mathematischen Funktionen (inklusive Parameter) wider, auf die es trainiert wurde. Analog
kann es auch passieren, dass eine falsche Entscheidung mit einer hohen Konfidenz
getroffen wurde. Das System ist sich also sehr sicher bei seiner Entscheidung, trifft aber
nach menschlichen Maßstäben dennoch die falsche Entscheidung. Zusätzliche
Mechanismen und Methoden sind somit erforderlich, um das Entscheidungsverhalten von
ADM bewerten und Fragestellungen der Diskriminierung beantworten zu können.

3. Auf Basis welcher Daten, Features (inklusive Gewichtung) und mathematischer
Operationen wurde die Entscheidung getroffen?

Frage 3 konkretisiert die Fragen 1 und 2 weiter. Üblicherweise benötigen ADM-Systeme zur
Entscheidungsfindung Eingabedaten, die von außen an sie herangetragen werden. Diese
werden    dann     vorverarbeitet    und   durchlaufen     diverse    Verarbeitungs- und
Transformationsschritte, bis sie der Komponente zum Maschinellen Lernen übergeben

83
   Eine einfache technische Implementierung dieses Prinzips im Bereich Kreditscoring kann sein,
dass das System nicht nur ausgibt, ob die Bewertung des Antragstellers den Schwellenwert zur
positiven Entscheidung überschreitet, sondern auch den relativen Abstand zur Schwelle anzeigt.
Effektiv läuft dies auf eine prozentuale Charakterisierung des Ausfallrisikos hinaus, welche wiederum
als Angabe in übergeordnete quantitative Entscheidungsprozesse einfließen kann (z.B. unter
Hinzunahme des potenziellen Gewinns). Aus unseren Gesprächen mit Nutzern der Technologie
haben wir Grund zur Annahme, dass diese Verwendung von ML-Modellen in der Praxis zumindest im
Bereich Kreditscoring üblich ist.


                                                 51
53

Gutachten:
                                                          Technische und rechtliche Betrachtungen
                                                           algorithmischer Entscheidungsverfahren




werden, die auf Basis der trainierten internen Entscheidungsstruktur eine Entscheidung
herbeiführt. Diese interne Entscheidungsstruktur berücksichtigt nicht notwendigerweise
jedes zur Verfügung gestellte Attribut. Zusätzlich können unterschiedliche Attribute mit
gänzlich unterschiedlichen Gewichten zu einer Entscheidung beitragen. Deshalb trägt Frage
3 dazu bei, dass dieser Umstand bei der Analyse von ADM-Systemen berücksichtigt wird.
Vor diesem Hintergrund tauchte eine zusätzliche Facette auf, die bei der Frage nach
Diskriminierung berücksichtigt werden muss. Die bloße Formulierung der Frage bedeutete
noch nicht, dass diese auch einfach zu beantworten ist. Auf die Herausforderung, die
Gewichte und die interne Entscheidungsstruktur offenzulegen, wird im Kapitel „Analyse von
ADM“ noch explizit hingewiesen.

Als Ergänzung zu Frage 2 adressiert Frage 3 die Verwendung von mathematischen
Operationen und Methoden innerhalb eines ADM-Systems. Während in der vorherigen
Frage insbesondere die Verwendung von Daten, Attributen und deren Gewicht im
Vordergrund steht, zielt diese Leitfrage darauf ab die Zusammenhänge zwischen diesen
Attributen zu analysieren. Wie bereits gezeigt wurde, existieren zahlreiche unterschiedliche
Ansätze, die für maschinelles Lernen verwendet werden können.

4.4.2.1.2 Beispiele von Techniken erklärbarer Modelle

Logistische Regression

Ein weit verbreitetes Vorhersagemodell zur Klassifikation ist die in Kapitel 4.1.1 bereits
erklärte logistische Regression. Hier werden die Eingabevariablen mit statistisch gelernten
Koeffizienten-Parametern multipliziert, aufsummiert und in den Bereich zwischen 0 und 1
projiziert.

Zur Erinnerung: Wenn ŷ die Zielvariable ist (z.B. die Kreditwürdigkeit einer Person) und x1,
…, xn die Eingabevariablen sind, dann ergibt sich das Modell aus folgender Gleichung:



Die Koeffizienten w1, …, wn sind Modellparameter, deren genauer Wert aus den Daten
gelernt wird. Das griechische Symbol σ ist hierbei eine sogenannte „logistische Funktion“,
die eine beliebig große oder kleine Zahl in das Intervall zwischen 0 und 1 projiziert, um die
Kreditwürdigkeit als binäre Entscheidung abzubilden.84 Beispielsweise wird das Alter des
Antragstellers als natürliche Zahl, das Jahreseinkommen in tausend Euro als natürliche
Zahl, die Anzahl der minderjährigen Nachkommen als natürliche Zahl sowie der Ehestatus
als 0 (ledig) oder 1 (verheiratet) jeweils mit einem solchen Parameter multipliziert, das
Ergebnis aufsummiert und schließlich auf einen Wert zwischen 0 und 1 reduziert.

Das Problem ist entsprechend, die richtigen Parameter zu finden, so dass die
Regressionsgleichung für kreditunwürdige Antragsteller einen Vorhersagewert möglichst nah
an 1 und für kreditunwürdige möglichst nah an 0 ergibt. Trainingsdaten vorausgesetzt,
lassen sich diese Parameter (also ein Regressionsmodell) von Daten mit Hilfe eines
Optimierungsvorgangs lernen. Im Anschluss an den Lernvorgang können nun die Parameter
jeder einzelnen Variablen untersucht werden. Ist ihr absoluter Wert sehr klein, so hat das

84
   In diesem Beispiel handelt es sich um eine „Sigmoid-Funktion“, die beliebige Zahlen in das (0, 1)-
Intervall abbildet. Sie sind monoton steigend und nähern sich für sehr kleine Werte an die
Untergrenze und für sehr große Werte an die Obergrenze des Intervalls an. Die Zahl 0 wird
dementsprechend auf den Mittelpunkt des Intervalls (z.B. 0,5) projiziert.


                                                 52
54

Gutachten:
                                                          Technische und rechtliche Betrachtungen
                                                           algorithmischer Entscheidungsverfahren




entsprechende Attribut nur wenig bis keinen Einfluss auf die Voraussage. Ist jedoch der
Parameter weit von 0 entfernt (positiv wie negativ), so hat das Attribut entsprechend
Einfluss.

Als illustratives Beispiel für eine solche Untersuchung von gelernten Koeffizienten und ihrer
Konsequenzen im Bereich der Fair-Lending-Aufsicht in den USA verweisen wir an dieser
Stelle auf einen Artikel von Calem und Longhofer85, dessen detaillierte Tabellen von
Attributen und Koeffizienten wir hier aus Platzgründen nicht reproduzieren können.

Wir halten fest dass die logistische Regression kein Blackbox-Modell ist, da ihre Parameter
nach dem Lernprozess einfach einseh- und interpretierbar sind. Unter anderem deswegen
ist sie nach wie vor ein sehr verbreitetes Modell in allen Bereichen, in denen
Interpretierbarkeit und Transparenz wichtig sind und die Einbuße an Genauigkeit gegenüber
komplexeren Modellen verschmerzbar ist.

Entscheidungsbäume

Ein weiteres gut interpretierbares Modell sind sogenannte Entscheidungsbäume (Decision
Trees). Hierbei wird die Voraussage durch die Verzweigung von Attributprüfungen
vorgenommen. Ein solcher Entscheidungsbaum kann ebenfalls durch Daten trainiert/gelernt
werden86 und bildet im einfachen Fall das gesamte Modell.87 Entscheidungsbäume sind der
logistischen Regression in vielerlei Hinsicht überlegen. Wenn beispielsweise zwei nicht mit
der Zielvariablen korrelierte Attribute nur in Kombination zur Vorhersage beitragen, stößt die
einfache logistische Regression an ihre Grenzen.88 Entscheidungsbäume können diese
nichtlinearen Interaktionen ohne Schwierigkeiten lernen und sind einsehbar bzw. intuitiv
verständlich. Dementsprechend finden sie in vielen Bereichen Anwendung, in denen
Transparenz von durch Daten trainierten Modellen notwendig oder vorteilhaft ist.
Entscheidungsbäume sind jedoch ebenfalls nicht für alle Problem- und Datenkonstellationen
geeignet. Beispielsweise tendieren sie dazu die Trainingsdaten so gut abzubilden, dass sie
auf ungesehenen Daten deutlich ungenauer sind (sogenanntes „overfitting“). Außerdem sind
sie bei Regressionsproblemen (Vorhersage von Zahlenwerten statt binären Entscheidungen)
anderen Modelltypen unterlegen.

4.4.2.1.3 Zwischenfazit

Im Hinblick auf die Machbarkeit von an den trainierten Modellen direkt ansetzenden
Kontrollmechanismen kommen wir somit zu folgenden Ergebnissen:
   ● Nicht alle durch Daten trainierten Modelle sind von Natur aus transparent im Sinne
       der Feststellbarkeit und Abschätzbarkeit des Einflusses eines Merkmals auf die
       Vorhersage.

85
   Calem/Longhofer 2002.
86
   Gängige Lernalgorithmen sind beispielsweise C4.5 (Quinlan 1993) oder CART (Breiman et al.
2017).
87
   Es existieren auch Methoden die mehrere Bäume zu komplexeren Modellen kombinieren (sog.
Random Forests). In diesem Fall ist die Erklärbarkeit sehr stark eingeschränkt da die einzelnen
Bäume zwar einsehbar sind, die Kombinationsmethode aber berücksichtigt werden muss, zumal
diese nicht zwangsweise zum Training von intuitiv verständlichen Einzelbäumen führt (siehe Kapitel
4.1.3).
88
   Wie in Abschnitt 4.1 beschrieben existieren zur Modellierung nichtlinearer Abhängigkeiten hierzu
sog. „Kernel Tricks/Projections” mit der man die logistische Regression entsprechend erweitern kann.
Diese vergrößern die Anzahl der Attribute jedoch erheblich, was wiederum die Interpretation des
Modells erschwert.


                                                53
55

Gutachten:
                                                         Technische und rechtliche Betrachtungen
                                                          algorithmischer Entscheidungsverfahren




     ●   Das in der Verbraucherscoringpraxis weit verbreitete Verfahren der logistischen
         Regression ist ein vergleichsweise transparentes statistisches Modell, dessen
         gelernte Parameter untersuchbar sind, womit es sich gut zur Prüfung eignet. Ein
         weiteres vergleichsweise transparentes Modell sind Entscheidungsbäume.
     ●   Soweit transparente Architekturen verwendet werden, ist eine Kontrolle der Modelle
         selbst prinzipiell möglich. Diese können je nach Problem und Daten jedoch
         komplexeren, weniger transparenten Modellen in ihrer Genauigkeit und Kapazität
         unterlegen sein. Bei Verwendung von komplexeren Modellen müssen entsprechend
         zusätzliche bzw. andersartige Indizien angeführt werden, um die Konformität des
         ADM-Systems mit den rechtlichen Anforderungen zu demonstrieren (siehe nächster
         Kapitel).

4.4.2.2 Analyse eines Blackbox-Modells mit Daten
Ein Modell, das einem ADM-System zugrunde liegt, besteht im Wesentlichen aus einem
Algorithmus zur Vorhersage und trainierten Parametern. Die Wahl des Modells und die
Trainingskonfiguration (auch oft „Hyperparameter“ genannt) werden dabei von Entwicklern
und Data Scientists zu Anfang festgelegt und können auch im Nachhinein ohne einen
erneuten Trainingsvorgang nicht mehr verändert werden. So wird zu Beginn entschieden,
welcher Algorithmus fürs Maschinelle Lernen verwendet wird, z.B. neuronale Netze, Naive
Bayes oder Entscheidungsbäume. Für jeden dieser Algorithmen existieren anschließend
zahlreiche Hyperparameter, z.B. maximale Tiefe des Entscheidungsbaumes (sogenanntes
Pruning) oder Gewichtsänderungsrate des Optimierungsalgorithmus für ein neuronales
Netzwerk.89 Unter Verwendung dieser Konfiguration werden dem Algorithmus
Trainingsdaten zugespielt, die er zum Training und zur Generierung der eigentlichen
Entscheidungsstruktur verwendet. Er trainiert damit das zugrundeliegende Modell. Dies
geschieht durch mathematische Optimierung, z.B. Wahrscheinlichkeitsberechnung bei
(Naive) Bayes, oder Informationsgewinn (Information Gain) von Attributen bei
Entscheidungsbäumen etc. Die Optimierung liefert weitere Parameter, anhand derer sich
das Modell ergibt. Das Modell ist somit eine Kombination aus einer Ausgangskonfiguration
und einer Parametrisierung, die sich durch das Training ergibt.

Durch das Berechnen und Optimieren hinsichtlich der Eingabeparameter können in den
Datenbeständen komplexe Muster und Regelmäßigkeiten, aber auch Anomalien und
Unregelmäßigkeiten erkannt werden. Mit welcher Genauigkeit dies durchgeführt werden
kann, hängt sehr stark von mehreren Umständen ab, unter anderem von dem ausgewählten
Algorithmus des Maschinellen Lernens, den Ausgangsparametern und den Trainingsdaten.

Das trainierte Modell ist eine mathematische Repräsentation der Entscheidungsstruktur und
das Ergebnis eines komplexen und vielschichtigen Prozesses. In der Regel ist es jedoch ein
deterministischer Prozess, der nachvollziehbar und transparent gemacht werden kann. Das
trainierte Modell ist aufgrund seiner eindeutigen mathematischen Repräsentation auch
keinem Zufallselement unterworfen. Die mathematische Repräsentation im Falle von
Entscheidungsbäumen besteht aus logischen und arithmetischen Regeln, die auf den
Eingabeparametern ausgeführt werden. Für Algorithmen des Maschinellen Lernens, die auf
Wahrscheinlichkeiten beruhen, werden bedingte Wahrscheinlichkeiten und ein
Erwartungswert berechnet. Auch bei sehr komplexen Entscheidungsstrukturen, wie sie beim
Training von neuronalen Netzen entstehen können, liegt eine mathematische

89
   Der Begriff „Hyperparameter” wird hier verwendet, da durch sie bestimmt wird, wie das Modell die
eigentlichen Modellparameter lernt.


                                                54
56

Gutachten:
                                                           Technische und rechtliche Betrachtungen
                                                            algorithmischer Entscheidungsverfahren




Berechnungsvorschrift zugrunde, die darüber entscheidet, welche Entscheidung auf Basis
eines gegebenen Inputs zu treffen ist. Diese kann jedoch sehr komplex und nach
menschlichen Maßstäben nicht mehr nachvollziehbar bzw. interpretierbar sein. Ohne
zusätzliche Anstrengungen ist es nicht ohne weiteres möglich, die komplexen
Entscheidungsstrukturen von vielschichtigen neuronalen Netzen zu verstehen und zu
erklären. Die Entscheidungsstrukturen, die als hochdimensionale Matrizen die Gewichte und
Assoziationen zwischen den Neuronen und Schichten darstellen, sind zur Interpretation
durch einen Menschen bei Netzen nichttrivialer Komplexität im Regelfall nicht geeignet und
kommen als Erklärungskomponente dadurch nicht in Frage. Die Sichtbarmachung des
Vorhersageverhaltens großer neuronaler Netzwerke ist ein Gebiet aktiver Forschung, jedoch
nach unserer Einschätzung noch nicht weit genug entwickelt, um regulativ aufgegriffen zu
werden.

Als eine Ergänzung zur Analyse des Gesamtprozesses zur Erstellung eines Systems, das
selbstständig Entscheidungen treffen oder vorbereiten kann, ist es jedoch notwendig, auf der
Ebene des trainierten Modells die sich ergebende Entscheidungsstruktur – zumindest
anteilig – zu berücksichtigen. Die trainierten Modelle können sich sehr stark voneinander
unterscheiden.

Es existiert eine Vielzahl weiterer ML-Algorithmen und -Modelle, denen zum Teil gänzlich
verschiedene mathematische Methoden zur Repräsentation der Entscheidungsstrukturen
zugrunde liegen. Diese können auf Basis von Wahrscheinlichkeiten (z.B. Naive Bayes),
Partitionierung des Attributraumes (z.B. Support Vector Machines, Random Forests) oder
komplexen neuronalen Netzen funktionieren. Obwohl die Entscheidungsstrukturen vor allem
automatisch generiert werden und unter Verwendung von Parametern und Trainingsdaten
entstehen, lassen sich die Beziehungen zwischen den Attributen und der Einfluss auf die
Entscheidung mathematisch darstellen, wenn auch oft nicht mit einer der logistischen
Regression oder Entscheidungsbäumen vergleichbar leichten Interpretierbarkeit.

Vor dem Hintergrund der Detektion von Diskriminierung in ADM wäre es jedoch
wünschenswert, die Auswirkungen von Attributen und deren Einfluss auf die Vorhersage zu
verstehen. Eine große Herausforderung ist, dass diese Zusammenhänge oftmals nichtlinear
sind, von volatilen Lernprozessen abhängen können und der Einfluss einer bestimmten
Variablen unter Umständen nicht ohne größeren Aufwand in einem Modell lokalisiert werden
kann. Neuronale Netze beispielsweise lernen nichtlineare Interaktionen statistisch durch
Zwischenelemente (sogenannte hidden nodes) mit, ohne dass diese Zusammenhänge vor
der Optimierung klar individuellen Netzwerkelementen zugeordnet wurden. Ein trainiertes
neuronales Netz kann auf den Einfluss einer Eingabevariablen überprüft werden, jedoch ist
dies je nach Komplexität des Netzwerkes mit erheblichem Aufwand verbunden. Dies kann
dazu führen, dass Eingabe-Ausgabe-Beziehungen, obwohl sie mathematisch eindeutig
dargestellt werden können, sich einer Interpretation durch den Menschen quasi gänzlich
entziehen und entsprechende Modelle als Blackbox behandelt werden müssen.

Es existiert eine Reihe von Techniken aus der Forschung, um solche intransparenten
Modelle einsehbar zu machen, sowohl modellspezifisch90 als auch modellunabhängig.
Beispielsweise kann ein beliebiges Blackbox-Modell durch ein Whitebox-Modell „simuliert“
werden (also ein „Modell eines Modells“91). Zunächst trainiert man ein intransparentes
Modell und benutzt es anschließend, um einen Datensatz vorherzusagen. Die Vorhersagen
werden dann als neue Zielwerte eingesetzt (inklusive der Fehler) und ein transparentes

90
     Siehe z.B. für neuronale Netze Andrews et al. 1995.
91
     Siehe z.B. Adler et al. 2018.


                                                   55
57

Gutachten:
                                                        Technische und rechtliche Betrachtungen
                                                         algorithmischer Entscheidungsverfahren




Modell (z.B. ein Entscheidungsbaum) wird auf diesen modifizierten Daten trainiert. Im
Idealfall schafft das transparente Modell eine nahezu perfekte Emulation des Blackbox-
Modells und erlaubt so Einsicht in den Entscheidungsprozess. Diese Methode basiert
allerdings unter anderem auf der Annahme, dass beide Modelle eine vergleichbare
Lernkapazität haben, was nicht zwangsläufig der Fall ist. Auch müssen sich das
Vorhersageproblem und der Datensatz prinzipiell dafür eignen.

4.4.2.2.1 Analyse der Entscheidung auf Instanzebene

Die dritte und abschließende Ebene, auf der ADM analysiert werden kann, um ein
vollumfängliches Bild zu bekommen, ist die Instanzebene. Auf dieser sind die
Entscheidungen von ADM inklusive des trainierten Modells in Bezug auf einen konkreten
Datensatz (also eine Menge von Einzelinstanzen von Entscheidungen) verortet. Während
sich die Analyse des ADM-Prozesses vor allem darauf beschränkt, alle zur Entwicklung und
Nutzung eines ADM-Systems notwendigen Schritte transparent und nachvollziehbar zu
machen, werden auf der Instanzebene Transparenzkriterien zur Nachvollziehung einer
einzigen, für sich abgeschlossenen Entscheidung gesammelt und analysiert. Analog kann
diese Ebene auch von der Modellebene abgegrenzt werden, da dort die datenunabhängige
Analyse der Modellstruktur selbst im Vordergrund steht.

Um den Nachweis der Diskriminierung zu erbringen bzw. zu widerlegen, ist es nicht
zwingend notwendig, das trainierte Modell in all seinen Details zu verstehen bzw. vollständig
transparent zu machen. Wie im vorangehenden Kapitel erläutert, ist dies oftmals auch nicht
trivial bzw. nur durch sehr großen Aufwand zu bewerkstelligen. Es wäre daher sehr
erstrebenswert, ADM-Systeme derart zu konstruieren, dass sie für einzelne Entscheidungen
neben der Vorhersage auch Informationen dazu liefern, welche Attributwerte der
Entscheidungsinstanz (oder deren Kombinationen) für die Entscheidung relevant sind und
wie sie durch Modellparameter gewichtet werden. So kann eine interpretierende Person
Indizien dafür bekommen, welche Attribute ausschlaggebend für eine Entscheidung waren
und welche nicht. Vor dem Hintergrund der Vermeidung von Ungleichbehandlung ist eine
solche Funktionalität sehr nützlich. Wie bereits erklärt, erfreut sich die logistische Regression
gerade deswegen großer Beliebtheit, weil die intuitive mathematische Struktur einer solchen
Sichtung der „Entscheidungsgründe“ sehr nahe kommt.

Im Rahmen der noch sehr jungen Disziplin der sogenannten Explainable Artificial
Intelligence (XAI) werden Methoden und Ansätze entwickelt, die solche Aussagen über
Entscheidungen eines Systems zulassen bzw. ermöglichen. Idealerweise müssen dafür die
zugrundeliegenden trainierten Modelle nicht offengelegt werden, sondern die Verfahren
behandeln das ADM-System als eine Blackbox und versuchen über intelligente Abfrage- und
Testmechanismen die möglicherweise komplexe innere Struktur zu approximieren. Ein
solches Verfahren, welches 2016 vorgestellt wurde, heißt „LIME – Local Interpretable Model-
agnostic Explanations“92. Vereinfacht ausgedrückt wird die Entscheidungsstruktur, also das
trainierte Modell, im Bereich einer einzelnen Entscheidung durch eine einfache lineare
Funktion angenähert. Diese Approximation wird dadurch generiert, dass man für einen
bestimmten vorliegenden Datensatz (Instanz) einzelne Attribute ein- und ausblendet bzw.
permutiert und das Ergebnis der Entscheidung bzw. die Änderungen der Entscheidung
aufzeichnet. Aus dieser Abbildung zwischen Eingabedaten und Entscheidung wird die innere
Struktur punktuell angenähert, jedoch nicht vollumfänglich erfasst. Diese Annäherung und
die darauf basierende Interpretation dürfen deshalb nur mit Vorsicht erfolgen. Es handelt
sich um eine lokale Approximation, weil der Ausgangspunkt ein bestehender Datenpunkt ist.

92
     Ribeiro et al. 2017.


                                               56
58

Zur nächsten Seite