gi-studie-algorithmenregulierung

Dieses Dokument ist Teil der Anfrage „Gutachten des Sachverständigenrats für Verbraucherfragen

/ 195
PDF herunterladen
Gutachten:
                                                      Technische und rechtliche Betrachtungen
                                                       algorithmischer Entscheidungsverfahren




        für Datenschutz und Informationsfreiheit, der unter anderem die Schufa
        beaufsichtigt (09. Juli 2018)

Die Gespräche wurden jeweils vom Projektleiter (Daniel Krupka) sowie mindestens einem
der Fachautoren geführt. Die typische Gesprächsdauer betrug ungefähr eine Stunde.9 Nach
einer anfänglichen Vorstellungsrunde wurden das Gebiet und das Ziel der Studie erklärt. Die
Gesprächsführung war weitestgehend frei, orientierte sich jedoch an den folgenden
Kernfragen:

    ●   Welche ADM-Technologien kommen in Ihrer Organisation bzw. Ihren jeweiligen
        Branchen zum Einsatz?

    ●   Welches Problembewusstsein und welche Lösungsansätze existieren in Ihrer
        Organisation bzw. Branche zum Thema Diskriminierung durch ADM-Verfahren?

    ●   Welche Regulierungsmöglichkeiten von ADM halten Sie für nützlich, wünschenswert,
        durchsetzbar oder ungeeignet?



3.4 Internationale und rechtsvergleichende Methoden
Die Betrachtungen dieser Studie sollen in einen internationalen und rechtsvergleichenden
Kontext gestellt werden. Das Ziel ist zum einen, aus der Erfahrung anderer
Rechtsordnungen zu lernen, und zum anderen sicherzustellen, dass keiner der Vorschläge,
die in dieser Untersuchung gemacht werden, internationale Harmonisierungsbemühungen
vorwegnimmt oder mit internationalen Aktivitäten in Konflikt steht.

Insbesondere das Lernen von anderen Rechtsordnungen ist nicht unproblematisch. Die
Transplantation von erfolgreichen Lösungen aus einer juristischen Tradition in eine andere
kann unvorhergesehene Konsequenzen haben, wenn der „Fremdkörper“ mit juristischen
Begriffen und Vorstellungen der empfangenden Rechtsordnung interagiert.10 Dies hat in
Teilen der Literatur zu einer generellen Skepsis gegenüber dieser Art des
rechtsvergleichenden Lernens geführt, insbesondere wenn der Transfer der Konzepte die
Grenzen zwischen den großen Rechtstraditionen (etwa vom Common Law zum
kontinentaleuropäischen Civil Law) überschreitet.11 Andere Stimmen sind optimistischer,
betonen aber trotzdem, dass Rechtsordnungen komplexe holistische Einheiten sind, die es
nicht zulassen, einzelne Begriffe isoliert zu betrachten, und dass der weitere
rechtsbegriffliche Kontext sowie auch das politische, ökonomische und historische Umfeld
mit in die Betrachtung einbezogen werden müssen.12

Um die Aussagekraft des rechtsvergleichenden Teils der Studie zu erhöhen und dem SVRV
Hinweise zur Vergleichbarkeit und damit Reichweite der rechtsvergleichenden Ergebnisse
zu geben, werden im Folgenden einige dieser Arbeit zugrundeliegenden Annahmen explizit
gemacht und wird die Motivation für die methodologischen Entscheidungen erklärt. Das ist
vor allem deshalb notwendig, da rechtsvergleichende Analysen an der Schnittstelle
zwischen Technologie und Recht neue methodologische Probleme aufwerfen, für die es

9
   Die Ausnahme war ein kürzeres Gespräch mit der Wertpapiergruppe der BaFin, aus dem sich die
Planung eines weiteren Gesprächs mit der Kreditvergabeaufsicht ergab.
10
   Teubner 1998.
11
   Legrand 1996.
12
   Watson 1996; Miller 2003; Levi-Faur 2005.


                                             20
22

Gutachten:
                                                             Technische und rechtliche Betrachtungen
                                                              algorithmischer Entscheidungsverfahren




noch keine allgemein akzeptierten Lösungen gibt – obgleich diese Art der Analyse bei
politischen Entscheidungsträgern immer beliebter wird.13

3.4.1 Methodenpluralismus
Ausgangspunkt unserer Studie ist ein funktionalistischer Ansatz in der Tradition von
Zweigert und Kötz, den diese auch gerade für den grenzüberschreitenden Transfer von
Konzepten geeignet hielten. Die Gefährdungsszenarien, die diese Analyse im ersten Teil der
rechtlichen Fragestellung leiten, werden hier als Tertium Comparationis zwischen den
Rechtsordnungen verwendet. Die Annahme dabei ist, dass zumindest ökonomisch ähnliche
Gesellschaften auch mit ähnlichen „lebensweltlichen“ Problemen konfrontiert sind: Die
Probleme sind fixiert, die rechtlichen Lösungen variieren und befinden sich im Fluss.

Diese Analyse zeigt, dass dieses Modell zwar einen guten Ausgangspunkt bildet, aber nicht
ohne Weiteres direkt angewendet werden kann: Wissenschaft und Informationstechnologien
blicken ihrerseits auf Recht und Politik und wollen von dort einerseits Hinweise dazu, welche
Forschung in rechtskonforme Produkte umgesetzt werden kann, und andererseits die
Definition von Problemen, für die sie dann Anwendungen und Lösungen entwickeln. Dies
bedeutet zum einen, dass die „lebensweltlichen“ Probleme nicht, wie Zweigert und Kötz
glaubten, unabhängig von Fragen des Rechts existieren. Zum anderen bedeutet es, dass es
gerade in jungen Forschungsgebieten und neuen Technologien unterschiedliche Ansätze
mit divergierender Nomenklatur, Philosophie und Methoden gibt, die mehr oder weniger mit
der Jurisdiktion korrespondieren. Im Bereich des Technologierechts ist dieses methodische
Problem besonders spürbar. Da zunehmend unter dem Motto „Code is Law“ die
Implementierung rechtlicher Vorschriften direkt in der Computersprache propagiert wird, um
damit rechtskonformes Verhalten der Technologie durch Design zu gewährleisten, wird
immer mehr und sehr wörtlich die Lebenswelt durch Recht „durchtränkt“ – so spricht etwa
Hildebrandt von ambient law.14 Im Bereich dieser Studie sehen wir dies z.B. in der
Entwicklung von interpretable AI oder explainable AI, in der traditionelle Ziele der KI-
Forschung auch gerade durch die sich ändernde regulatorische Landschaft stark beeinflusst
werden und Forscher aus unterschiedlichen Rechtsordnungen unterschiedliche
Schwerpunkte setzen.15 Die Auswirkungen dieser Integration von Recht direkt in
Technologie für die rechtsvergleichende Methodik sind noch nicht aufgeholt, wobei aber
gerade für Funktionalisten die Probleme offensichtlich sein sollten.

Science, Technology and Society Studies (STS) verwenden soziologische Ansätze, um die
Entstehung von Technologie-Communitys und ihrer Nomenklatur zu analysieren.16 In der
Rechtsvergleichung entspricht dieser Denkansatz dem Comparative Law and Culture-
Ansatz (CLC), der in bewusster Abgrenzung zum Funktionalismus entwickelt wurde. In
dieser Arbeit werden beide Methoden verbunden, ohne dabei den „transferkritischen“ Ansatz
des CLC zu übernehmen. Stattdessen werden das weitere soziale, politische und kulturelle
Umfeld als „Regulativ“ verwendet, um aufzuzeigen, wo trotz scheinbarer Ähnlichkeit in der
Problemstellung und dem technischen Vokabular tieferliegende Unterschiede vorhanden


13
   So hat z.B. die britische Regierung Studien zur Kontrolle von ADM-Systemen beauftragt, die auch
gerade deutsche und andere kontinentaleuropäische Ansätze berücksichtigen sollen.
14
   Hildebrandt 2008.
15
   Der erste internationale Workshops zu diesem Thema, die International Joint Conference on
Artificial Intelligence: Workshop on Explainable Artificial Intelligence (XAI), im Jahr 2017 unterstreicht
diese Entwicklung.
16
   Williams/Edge 1996; Bauchspies et al. 2005.


                                                   21
23

Gutachten:
                                                     Technische und rechtliche Betrachtungen
                                                      algorithmischer Entscheidungsverfahren




sein könnten, die eine direkte Übertragung der Erfahrung aus anderen Rechtsordnungen ins
deutsche Recht wenn nicht unmöglich, so doch risikoreicher machen.

Da es eine zentrale Frage für den Gesetzgeber ist, wie sich verschiedene
Regulierungsansätze wirtschaftlich auswirken werden, wäre zudem eine Analyse aus der
Perspektive von „Comparative Law and Economics“17 im Prinzip wünschenswert. Eine erste
Literaturanalyse zeigte aber, dass es die dafür notwendigen international vergleichbaren
Datensätze nicht gibt und diese auch im Rahmen einer Kurzstudie wie der vorliegenden
nicht systematisch entwickelt werden können. Der einzige internationale Index von der Art,
wie er für eine solche Analyse benötigt würde, ist der internationale „Government AI
Readiness Index“.18 Dieser analysiert indes nur, wie gut Regierungen aufgestellt sind, um
Künstliche Intelligenz anwenden zu können, nicht aber, wie weit sie damit sind, diese
Anwendungen zu regulieren. Etwas anders sieht die Situation für „traditionelle“
algorithmische Verfahren aus, also Verfahren, die nicht spezifisch Maschinelles Lernen oder
KI im heutigen Sinne verwenden. Hier gibt es Studien zur Auswirkung von Regulierung
insbesondere in der Kreditindustrie. Die zu erarbeitende Studie verwendet diesen Ansatz
daher nur indirekt und führt keine systematische Analyse der Ergebnisse durch die
„Comparative Law and Economics“-Perspektive durch, offenbart aber womöglich, wie
effizient oder ineffizient in der Vergangenheit die Regulierung ähnlicher Probleme war.

3.4.2 Auswahl der Rechtsordnungen
Die einführende Diskussion zeigt, dass Lernen von anderen Rechtsordnungen dann am
erfolgversprechendsten ist, wenn eng verwandte Systeme trotz alledem sehr
unterschiedliche Lösungen entwickeln und mit ihnen Erfahrung sammeln können.

Eine erste Übersichtsanalyse der Literatur, die durch eine Präsentation im Rahmen einer
kontinentaleuropäischen Konferenz (Internationales Rechtsinformatik Symposion IRIS 2018)
validiert wurde, belegt, dass bislang noch keine umgesetzten Beispiele für lernende
Algorithmen-spezifische Regelungen im Verbraucherschutzrecht bestehen, aus deren
Erfahrung gelernt werden könnte.19 Außerhalb des europäischen Datenschutzrechts gibt es
erste Schritte im Finanzmarktrecht, so insbesondere die MiFID-II-Vorschriften zum
algorithmischen Hochfrequenzhandeln, die in Deutschland weitgehend durch das Gesetz zur
Vermeidung von Gefahren und Missbräuchen im Hochfrequenzhandel vorweggenommen
wurden. Die sehr unterschiedliche Regelungsmaterie macht direkte Vergleiche schwierig,
doch lassen sich zumindest Rückschlüsse zur technischen Machbarkeit von Archivierung
großer Mengen sequenzieller Daten ziehen, die Teil eines Prüfungsregimes sein müssen.

Trotz des weitgehenden Fehlens einschlägiger Gesetze wurde versucht, Beispiele zu
diskutieren, die die unterschiedlichen Rechtstraditionen in besonders typischer Weise
vertreten. Frankreich repräsentiert die zivilistische Tradition mit dem Gesetz zu einer
Digitalen Republik. Dies ist ein Versuch, außerhalb des Datenschutzrechts einen Anspruch
auf transparente und faire Algorithmen in einem Verbraucherschutzkontext zu schaffen.
Allerdings ist der Kern des neuen Rechts bestenfalls tangential zu den hier diskutierten
Fallszenarien. Auch gibt es bislang keine Erfahrung mit der Umsetzung und gerichtlichen
Auslegung dieses Rechts. Trotzdem stellt es als einer der seltenen Vorschläge der
Kodifizierung eines Algorithmenrechts eine besonders typische „zivilistische“ Lösung dar.

17
   Siems 2005.
18
     Oxford Insights: Government AI Readiness     Index,   zuletzt   besucht   am   26.07.2018
[https://bit.ly/2ynQDiL].
19
   Siehe z.B. Pasquale 2015; Pasquale 2017.


                                            22
24

Gutachten:
                                                          Technische und rechtliche Betrachtungen
                                                           algorithmischer Entscheidungsverfahren




Skandinavien wird durch einen aktuellen Fall zum algorithmischen Kreditscoring
repräsentiert. Unsere Literatursuche deutete an, dass sich die rechtliche Diskussion in
Kanada, Südamerika, Neuseeland20, Australien21, Asien und Afrika, soweit sie überhaupt
stattfindet, weitgehend an amerikanischen oder EU-Vorschlägen orientiert.22 Die Mehrheit
der Vorschläge, die wir diskutieren werden, kommt daher aus Großbritannien23 und den
USA. Obgleich dies eine Einschränkung bedeutet, erlaubt es doch das erwünschte
vergleichende Lernen und stellt eine rechtfertigbare Auswahl dar. Dies zum einen, weil die
beiden Staaten in der Entwicklung der relevanten Technologie führend sind – der
Government AI Readiness Index listet sie an erster und zweiter Stelle auf und hat diese
beiden Länder als besonders einflussreich identifiziert. Dies hat zu besonders großem
Regelungsbedarf geführt, der in aktive und gut dokumentierte Diskussionen des
Gesetzgebers mündete. Zum anderen decken die USA und Großbritannien relevante
Permutationen ab: Die USA haben, wie auch Deutschland, Aspekten des
Gleichbehandlungsgebots Verfassungsrang gegeben. Dies ist in Großbritannien nicht der
Fall, wo die ungeschriebene Verfassung eine derartige Verankerung nicht zulässt.
Andererseits hat Großbritannien durch den Equality Act 2000 die relevanten EU-Direktiven
in das nationale Recht überführt und damit einen Rechtsrahmen geschaffen, der dem
deutschen in dieser Hinsicht äquivalent ist. Wie das Land nach dem Ausscheiden aus der
Europäischen Union damit verfährt, bleibt abzuwarten. Zumindest derzeit gilt in
Großbritannien auch das relevante europäische Verbraucherschutzrecht, während die USA
in diesem Bereich eine historisch und systematisch sehr unterschiedliche Entwicklung
erfahren haben.

Auch    das   Datenschutzrecht      wird     in    vielen   Rechtsordnungen      als    eine
Regulierungsmöglichkeit für KI diskutiert.24 Hier unterscheidet sich der „sektorspezifische“
Ansatz in den USA besonders deutlich von der EU. Innerhalb der Europäischen Union
hingegen hat Großbritannien immer schon eine „minimalistische“ Position vertreten, die die
Bedeutung des Datenschutzrechts so weit als möglich zurückstuft. Dies ist zum einen ein
Ergebnis des rechtlichen Kontexts (aktive Zurückweisung eines allgemeinen privacy tort

20
   Siehe Sek. IV des Berichts der New Zealand Human Rights Commission 2018.
21
   Siehe die Diskussion in dem Productivity Commission Draft Report: Data Availability and Use 2016,
der europäisches Datenschutzrecht als Antwort auf algorithmische Diskriminierung empfiehlt.
22
   Siehe dazu auch den Algorithmenreport der WWW-Foundation [https://bit.ly/2O50iDC], der gezielt
Beispiele außerhalb der EU/US-Debatte gesucht hat. Auch die Studie von Kathleen Siminyu „Artificial
Intelligence in Low/Middle Income Countries, The East African Experience“ [https://bit.ly/2wYtuER]
weist nicht auf spezifisch rechtliche Diskussionen hin – obgleich in dem jungen afrikanischen AI-
Umfeld Lösungen entwickelt werden, die einerseits von denen in Europa und den US abweichen,
auch bedingt durch die oft unzuverlässige IT-Infrastruktur, aber ähnliche Probleme aufwerfen sollten.
So beschreibt sie etwa Tala, eine Stiftung, die Mikrokredite in Kenia und Tansania anbietet.
Bedingung ist, dass der Kunde eine Smartphone-App benutzt, die biographische Daten sammelt, aber
auch die Kontakte der Lohnbewerber, die Größe ihrer Netzwerke und Unterstützungssysteme,
Mobilität und Routineverhalten wie den täglichen Anruf bei den Eltern, um die Kreditwürdigkeit zu
ermitteln.
23
    „Großbritannien“ und „Britisches Recht“ werden im Folgenden als Abkürzung für das Recht
Englands, Schottlands und Nordirlands verwendet, da die für die Studie relevanten Gesetze
typischerweise entweder Bundesrecht sind oder, wo sie devolved matters betreffen, nicht zu
signifikanten Abweichungen zwischen den Regionen geführt haben. Es gibt bislang auch keine
Initiativen der Regierungen in Belfast oder Edinburgh, eigene Algorithmengesetze einzuführen. Für
die USA werden Unterschiede zwischen Bundes- und Landesrecht expliziter diskutiert werden
müssen.
24
   Goodman/Flaxman 2017; Tene/Polonetsky 2012; Ishii 2017; Citron/Pasquale 2014; Wang/Wang
2017; Joshi 2018; Thelisson et al. 2017.


                                                 23
25

Gutachten:
                                                         Technische und rechtliche Betrachtungen
                                                          algorithmischer Entscheidungsverfahren




durch die Gerichte im 19. und frühen 20. Jahrhundert), zum anderen der kulturell-politischen
Erfahrung geschuldet (keine totalitären Regime seit Cromwell im 17. Jahrhundert).
Großbritannien und die USA eignen sich daher besonders für eine Triangulierung der
Common-Law-Diskussion in dem für diese Studie relevanten Bereich, mit dem britischen
Recht als mögliche „Brücke“ zwischen kontinentaleuropäischen und US-amerikanischen
Regulierungsphilosophien.

3.4.3 Verwendete Materialien
Rechtsvergleichende Forschung unterscheidet häufig zwischen dem geschriebenen Recht
(„law in books“) und dem praktizierten Recht („law in action“), um systematische
Unterschiede zwischen rechtlichem Ideal und praktischer Umsetzung zu verdeutlichen und
zu evaluieren. Im Kontext dieser Studie ist das insbesondere für die unterschiedlichen
Erfahrungen mit der Durchsetzung verbraucherschutzrechtlicher Normen relevant. Wie wir
im Laufe dieser Betrachtung sehen werden, gibt es bislang keine Erfahrung mit neuen,
speziell für die Herausforderung durch algorithmische Entscheidungen entwickelten
Gesetzen. Die wenigen erfolgreichen Gesetzesinitiativen sind zu jung, um ihre Auswirkung
auf wirtschaftliche Praxis und rechtliche Durchsetzung evaluieren zu können. Etwas
fruchtbarer ist das Fallrecht zu diskriminierender Anwendung von Algorithmen unter
etablierten rechtlichen Kriterien, und damit die analoge Anwendung von Regeln zur
menschlichen Entscheidungsfindung auf Computersysteme. Naturgemäß diskutieren diese
Entscheidungen aber häufig gerade nicht im Detail die spezifischen neuen Fragestellungen
und Probleme der Anwendung von Machine Learning. Trotzdem erlauben sie uns
zumindest, einige rechtsordnungsübergreifende Problemkonfigurationen zu identifizieren,
und die Hypothese, dass die neue Technologie unzureichend reguliert ist, zu konkretisieren
und zu verfeinern.

Um aber die empirische Grundlage zu verstärken, haben wir diese Kategorien um eine
weitere erweitert: „Recht in Planung“. Das heißt, zusätzlich zu formalen rechtlichen Quellen
und Studien zu ihrer Umsetzung im Rechtsalltag ziehen wir auch offizielle
Diskussionsdokumente, Vorschläge und akademische Studien hinzu, sofern diese von den
zuständigen Gesetzgebern entweder direkt beauftragt wurden oder durch institutionelle
Prozesse wie offizielle Anhörungen etc. besonders nahe an der Umsetzung sind.

Dieses Vorgehen soll sicherstellen, dass das Ziel einer rechtsvergleichenden und
internationalen Studie – Kompatibilität mit internationalen Entwicklungen – erreicht wird.
Rein abstrakte Diskussionsbeiträge von Akademikern aus anderen Rechtsordnungen, die
bislang nur von der Wissenschafts-Community rezipiert werden, haben wir hingegen soweit
relevant in den anderen Teilen dieser Untersuchung berücksichtigt.

3.4.4 Leitbeispiel Kreditscoring: Regelung, Aufsicht und Praxis im
Bereich „Fair Lending“ in den USA
Das Gutachten benutzt an vielerlei Stellen Beispiele aus dem Bereich der
Kreditwürdigkeitsprüfungen. Um die Probleme und Lösungsansätze im Zwischenspiel von
Technik/Statistik und Recht besser veranschaulichen zu können, gehen wir an dieser Stelle
kurz auf ein breit dokumentiertes Fallbeispiel aus den USA ein. Dort regelt der Equal Credit
Opportunity Act, spezifisch Regulation B25, dass die Kreditvergabe nicht auf der Grundlage

25
  Federal Register, Bureau of Consumer Financial Protection, 21.12.2011, zuletzt online gesehen am
08.08.2018 [https://bit.ly/2N1ViD9]


                                               24
26

Gutachten:
                                                              Technische und rechtliche Betrachtungen
                                                               algorithmischer Entscheidungsverfahren




von geschützten Attributen26 des Antragstellers erfolgen darf. Zur Aufsicht dieses Verbots
werden regelmäßig sogenannte Fair Lending Examinations durchgeführt. Zuständige
Behörde ist hierfür das zum Treasury Department gehörende Office of the Comptroller of the
Currency (OOC).27 Das OOC veröffentlicht Richtlinien zur Aufsicht von Banken bei der
Kreditvergabe28 und wendet diese auch selbst an. Dort wird unterschieden zwischen einer
ungleichen Vergabepraxis (Disparate Treatment) und einer vermeintlich neutralen
Vergabepraxis, die aber auf gleich zu behandelnde Gruppen verschiedene Auswirkungen
hat (Disparate Impact).

Die erste Gruppe umfasst zum einen offene Ungleichbehandlung (Overt Evidence of
Disparate Treatment) nach geschützten Merkmalen in den kommunizierten
Entscheidungskriterien der Bank wie beispielsweise unterschiedliche interne Richtlinien zur
Kreditvergabe an Personen mit verschiedenen ethnischen Hintergründen. Zum anderen
kann Ungleichbehandlung durch eine vergleichende Betrachtungsweise ermittelt werden
(Comparative Evidence of Disparate Treatment). Wenn eine Bank zwei nach einem
geschützten Merkmal verschiedene, aber sonst vergleichbare Antragsteller ungleich
behandelt, muss sie eine Rechtfertigung liefern, welche von der Aufsicht geprüft wird.
Prüfungsmaßstab ist konsequenterweise hierbei die Verneinung der „sonstigen
Vergleichbarkeit“.

Die zweite Gruppe betrifft Fälle, in denen eine Regelung angewendet wird, die zwar
geschützten Attributen gegenüber prinzipiell neutral ist, aber faktisch Mitglieder bestimmter
Gruppen negativer oder positiver behandelt als Mitglieder anderer Gruppen. Hierbei wird von
„unausgewogenen Effekten“ gesprochen (disparate impact oder effects test).29 Auf
rechtswidriges Verhalten wird hier erst nach Prüfung eines legitimen Handlungszwecks und
der Verhältnismäßigkeit geschlossen. Bei solchen Prüfungen können insbesondere
sogenannte Regressionsverfahren zur Anwendung kommen, wie wir sie in Kapitel 4.1
ausführlicher erläutern werden.

Eine Prüfung der Kreditvergabepraxis einer Bank erfolgt zweistufig.30 In Stufe eins werden
Bankdaten herangezogen, die zur Erfüllung der Pflichten des Home Mortgage Disclosure
Acts (HMDA) erhoben wurden. Hieraus wird zunächst ein Prüfungsdatensatz erstellt, indem
aus Vergabedaten bestimmter Kreditprodukte Gruppen von vergleichbaren Anträgen
gesammelt werden. Hierbei handelt es sich um Gruppen von Anträgen einer zu schützenden
Minderheitengruppe sowie deren Vergleichsgruppen, die von Mitgliedern der
Mehrheitsgruppe gestellt wurden, aber im Übrigen äquivalent sind. Die Entscheidungen über
die Anträge in den Vergleichsgruppen werden dann statistisch verglichen. Wenn die
Unterschiede signifikant genug sind, kann die Prüfbehörde eine detaillierte
Regressionsanalyse veranlassen (Stufe zwei). Es werden in einem leicht abgewandelten
Prozess abermals solche Paardatensätze erstellt und die einzelnen Antragsdaten


26
   Die Regelung definiert eine „verbotene Entscheidungsgrundlage“ wie folgt: „Prohibited basis means
race, color, religion, national origin, sex, marital status, or age (provided that the applicant has the
capacity to enter into a binding contract); the fact that all or part of the applicant’s income derives from
any public assistance program; or the fact that the applicant has in good faith exercised any right
under the Consumer Credit Protection Act or any state law upon which an exemption has been
granted by the Bureau.“
27
   Offizielle Webseite [www.occ.treas.gov/]; siehe auch Wikipedia [https://bit.ly/2MYCQva].
28
   OOC Fair Lending Handbook (Version of January 2010) [https://bit.ly/2N2Qlde].
29
   Im deutschen Recht entspricht dies der Kategorie der mittelbaren Benachteiligung.
30
   Die Autoren gründen ihre Erklärungen zum Teil auf Avery et al. 1997.


                                                    25
27

Gutachten:
                                                          Technische und rechtliche Betrachtungen
                                                           algorithmischer Entscheidungsverfahren




gegebenenfalls durch weitere relevante Variablen ergänzt.31 Bei der statistischen Prüfung
wird mit den Prüfungsdaten ein logistisches Regressionsmodell trainiert, welches das
Entscheidungsverhalten der Bank simuliert. Anschließend werden die einzelnen Variablen
auf ihren statistischen Einfluss in der Regression überprüft, wobei der
Minderheitenzugehörigkeit eines Antragstellers besondere Bedeutung zukommt. Ist sie
statistisch signifikant, ist eine detaillierte Prüfung der Vergabepraxis der Bank geboten und
auffällige Einzelentscheidungen werden unter Umständen genauer untersucht. Hier können
Aspekte der Datenerhebung und -verifizierung eine Rolle spielen, da diese nicht in das
Regressionsmodell integriert sind und nur durch das Modell als „verdächtig“ eingestuft
werden können.32

Dieses Fallbeispiel illustriert einige Aspekte der Integration von Statistik und lernenden
Algorithmen (in diesem Fall die logistische Regression) in eine Gleichbehandlungsprüfung.
Wir halten Folgendes fest: Der Equal Credit Opportunity Act, der Fair Housing Act und der
Home Mortage Disclosure Act sind vergleichsweise „alte“ Antidiskriminierungsgesetze
(1974, 1968 und 1975) und müssen vor dem Hintergrund des Civil Rights Movements der
1960er Jahre verstanden werden. Schutzgegenstand sind deshalb insbesondere historisch
benachteiligte Gruppen, auch wenn das Gesetz auch aus verfassungsrechtlichen Gründen
„on its face“33 neutral formuliert ist und jede Diskriminierung aufgrund von z.B. Ethnizität
verbietet, nicht nur die zu Ungunsten von Minderheiten. Dies erleichtert die statistische
Prüfung und erklärt, warum ähnliche Methoden nicht in gleicher Weise etwa in der Kontrolle
der Zuweisung von Studienplätzen angewendet werden kann: Dort ist eine „holistische
Evaluierung“ unter eng umschriebenen Umständen erlaubt (wenngleich politisch
umstritten),34 die im Namen von positiver Diskriminierung die Anzahl von Studenten aus
historisch benachteiligten Minderheiten erhöhen soll. Eine derartige „holistische Evaluierung“
macht es sehr viel komplizierter, statistisch die korrekte Anwendung von
Entscheidungskriterien zu überprüfen.

Selbst im Equal Credit Opportunity Act finden wir eine problematische Regelung: Anders als
die anderen beiden Gesetze verbietet er auch Altersdiskriminierung. § 1691 b) (3) erlaubt
die Hinzunahme von Alter als Kriterium, sofern dies a) durch ein empirisch erzeugtes
Kreditscoringsystem geschieht, das beweisbar und statistisch korrekt ist, und b) älteren
Bewerbern keinen „Altersmalus“ zuweist. Solch ein „empirisch erzeugtes System“ wird
heutzutage typischerweise durch lernende Algorithmen erzeugt und ist damit der direkteste
Link zwischen diesen Gesetzen und dem Thema dieser Studie. Doch verlangt das Gesetz
mehr als nur „statistische Korrektheit“, das Scoring muss auch demonstrably sound sein,
d.h., die Daten, die zum Lernen verwendet werden, müssen empirisch korrekt sein. Zudem
ist das Ergebnis aber auch noch durch eine harte Regel eingeschränkt: Selbst wenn es eine
klare statistische Korrelation zwischen hohem Alter und Schuldnerverzug gäbe und diese
etwa durch Änderungen im Risikoverhalten biologisch erklärbar wäre, darf sich das Alter
nicht gegen den Antragsteller auswirken. Diese Kombination aus statistischem und
regelbasiertem Scoring lässt sich nicht mehr direkt auf Diskriminierung durch ausschließlich

31
   Calem/Longhofer 2002 beschreiben in ihrem Artikel ein Fallbeispiel einer solchen Untersuchung, in
der bei einer Prüfung der zweiten Stufe Daten für insgesamt 72 Variablen für jede Entscheidung
gesammelt wurden. Das zur Prüfung genutzte Modell beinhaltete nach Kürzungen durch Experten
schließlich nur noch 15 Variablen über die Kreditwürdigkeit der Antragsteller.
32
   Das Fallbeispiel von Calem/Longhofer 2002 hier detailliert zu reproduzieren würde den Rahmen
des Gutachtens überschreiten. Wir verweisen hier abermals auf Kapitel 4.
33
   Siehe Annotation 20 - Fourteenth Amendment: Testing Facially Neutral Classifications Which
Impact on Minorities [https://bit.ly/2wXAEKn].
34
   Siehe Grutter v. Bollinger, 539 U.S. 306 (2003).


                                                26
28

Gutachten:
                                                       Technische und rechtliche Betrachtungen
                                                        algorithmischer Entscheidungsverfahren




statistische Modelle wie die oben angeführten testen. Im rechtsvergleichenden Teil werden
wir eine Reihe ähnlicher Erfahrungen finden: Selbst innerhalb einer Rechtsordnung, und bei
der Regulierung des gleichen Lebenssachverhalts, ist das Verständnis dessen, was als
rechtswidrige Diskriminierung zählt, oft von Gesetz zu Gesetz unterschiedlich und nur in
Teilen auf allgemeine, mathematische Aussagen reduzierbar. Insbesondere für die
verschiedenen Spielarten der indirekten Diskriminierung deuten die Erfahrungen mit den
Grenzen des Equal Credit Opportunity Acts an, dass es keine abstrakte, universale Methode
der Analyse gibt. Tests, die wie hier die Entscheidungen ex post modellieren, sind stark
abhängig vom Anwendungsbereich (hier der Kreditindustrie), von den spezifischen
Gesetzen, die in ihm gelten, und ihrer oft durch kontingente historische und politische
Faktoren beeinflussten Auslegung durch die Gerichte. Dies scheint auch auf die
Gefährdungsszenarien der vorliegenden Studie anwendbar – allgemeine statistische
Testverfahren können zwar häufig (aber nicht immer) einen ersten Verdacht insbesondere in
Fällen direkter Diskriminierung erzeugen. Die Evaluierung, ob diese im konkreten Fall aber
auch rechtswidrig ist, verlangt darüber hinaus ein Verständnis des Anwendungsbereichs,
das nicht auf statistische Verfahren reduzierbar ist. Gegenüber einer allgemeinen Lösung,
dem Problem diskriminierender Algorithmen gesetzgeberisch Herr zu werden, ist Skepsis
geboten, zumindest insoweit versucht werden soll, die juristischen Diskriminierungsbegriffe
auf rein statistische Aussagen zu reduzieren.

Wie erwähnt dienen Gesetze wie der Equal Credit Opportunity Act dem Schutz historisch
benachteiligter und damit auch wirtschaftlich schwächerer Gruppen und müssen auch in
ihrem historischen und gesellschaftlichen Kontext gesehen werden. Die hohen Kosten des
Klageweges in den Vereinigten Staaten und die Methode der Kostenzuweisung (bei der im
Regelfall auch der Gewinner seine Kosten tragen muss) machten eine Durchsetzung
ausschließlich durch Einzelklagen abgewiesener Bewerber unmöglich. Obgleich
Verletzungen des Equal Credit Opportunity Acts durch abgelehnte Bewerber sowohl durch
Einzelklagen als auch durch Class Actions im Prinzip möglich sind, scheinen sie eine
Ausnahme zu sein und vor allem nicht die oben diskutierten Evaluierungsmethoden zu
benutzen. Sehr viel häufiger sind Überweisungen zum Department of Justice, welches dann
in Klageverfahren Schadensersatz und Strafschadensersatz verlangen kann.35 Im Jahr 2016
wurden etwa 18 „Fair Lending“-Ermittlungen durchgeführt, von denen 7 zu Klagen und 6 zu
außergerichtlichen Vergleichen im Werte von 37 Millionen US-$ führten.36 Fair Lending
Examinations spielen damit eine doppelte Rolle: Werden sie nicht bestanden, sind sie ein
starker, aber widerlegbarer Beweis, dass ein Gesetzesverstoß vorlag (in den 7 Verfahren
argumentierten die Banken, dass die Entscheidungen letztendlich begründet waren). Eine
bestandene Prüfung hingegen schützt als widerlegbare Vermutung insbesondere vor Class
Actions, aber auch Einzelklagen, was die geringe Anzahl erfolgreicher Klagen miterklärt. Im
Rahmen der in Kapitel 6.2 entwickelten rechtsvergleichenden Systematik verbinden sie
daher das Aufsichtsmodell mit dem der Beweislastzuweisung.

3.4.5 Algorithmen als Mittel zum Aufdecken von Diskriminierung
Die oben angeführten Strukturen wurden historisch entwickelt, um menschliche
Entscheidungen und regelbasierte Expertensysteme zu kontrollieren, nicht lernende
Algorithmen. Lernende Algorithmen dienen hier also der Kontrolle der Entscheidungsfindung
und sind „agnostisch“ hinsichtlich der Methodik, die Banken und Kreditinstitute zur

35
  Cook 1997.
36
  The Attorney General’s 2016 Annual Report to Congress Pursuant to the Equal Credit Opportunity
Act Amendments of 1976, zuletzt besucht am 26.07.2018 [https://bit.ly/2Qg5kyx].


                                              27
29

Gutachten:
                                                       Technische und rechtliche Betrachtungen
                                                        algorithmischer Entscheidungsverfahren




Entscheidungsfindung benutzen, durch lernende Algorithmen, regelbasierte Scoringsysteme
oder manuell. Lernende Algorithmen stellen daher nicht notwendigerweise (nur) eine
Herausforderung für den Verbraucherschutz dar, sie ermöglichen auch eine effizientere
Ermittlung durch Prüfungsbehörden sowie Dritte. In einer großen Anzahl der Fälle, in denen
diskriminierende Algorithmen zur Kenntnis der Öffentlichkeit gebracht wurden, geschah dies
durch eine Analyse von Wissenschaftlern, Journalisten oder NGOs, die ähnliche Methoden
zur Rekonstruktion von Entscheidungen auf Grundlage der berichteten Datensätze benutzen
wie die Fair Lending Assessments.

So entdeckte etwa ProPublica, eine dem kritischen Journalismus verpflichtete Stiftung, die
inhärente Diskriminierung in dem von vielen US-Staaten zur Risikoeinstufung bei
Strafzumessung und Bewährungsentscheidungen benutzten COMPAS-System durch die
Analyse von 7000 Risk Scores in Broward County, Florida.37 Für Kreditscoring war es eine
Studie einer ähnlichen Stiftung, Reveal, die über ein Jahr über 31 Millionen Entscheidungen,
mit einer Kombination aus Methoden, die von staatlichen Stellen in der Fair Lending
Analysis verwendet werden, und zusätzlichen fortgeschrittenen statistischen Algorithmen
analysierte. Das Ergebnis war die Feststellung einer anhaltenden Ungleichbehandlung
ethnischer Minderheiten.38 Es ist der Erfolg derartiger Ermittlungen, der die Frage aufwirft,
wie weit es unter Schutz legitimer Wirtschaftsinteressen und der Privatheit der Antragsteller
möglich ist, die relevanten Datenmengen weiteren Kreisen zugänglich zu machen.

So wird etwa auch in Großbritannien der Gedanke einer Algorithmentreuhand diskutiert, wie
wir unten sehen werden. Offenlegungspflichten werden aber eine zentrale Rolle in der
Algorithmenregulierung spielen, da erst diese die statistische Analyse ermöglichen und so
„Big Data mit Big Data bekämpft“ werden kann. So konnte die Reveal-Studie nicht direkt
Score-Daten verwenden, da diese nicht öffentlich gemacht werden. Die American Bankers
Association hat sich gegen weitere Offenlegungspflichten ausgesprochen und zitiert außer
den Kosten für ihre Mitglieder auch Sorgen über die Datensicherheit und den Schutz der
Privatheit ihrer Kunden.39 Gerade die Reveal-Studie zeigt, wie sehr viel schneller die
Wissenschaft neue Analysemethoden entwickelt, als diese von offizieller Seite
aufgenommen werden können, wobei sich aber auch die Frage der „Prüfer der Prüfer“ stellt.
Wenn wie in unserem Beispiel Maschinelles Lernen zur Überprüfung von
Entscheidungsgerechtigkeit verwendet werden soll, müssen diese Methoden selber wieder
evaluiert, getestet und gegebenenfalls akkreditiert werden.

Die Reveal-Studie bestätigt eine Reihe ähnlicher Analysen: Fair Lending Examinations
waren nur bedingt erfolgreich, den Willen des Gesetzgebers zu einer gerechteren
Kreditvergabe umzusetzen.40 Es ist aber schwer zu beurteilen, ob sich dies durch den
verstärkten Einsatz von lernenden Algorithmen verbessert oder verschlimmert hat. Der
Bankensektor zumindest nimmt die geringe Anzahl erfolgreicher Klagen als Zeichen dafür,
dass es keine systematischen Probleme gibt (und nicht die Rechtsdurchsetzung

37
   Website ProPublica: Machine Bias - There’s software used across the country to predict future
criminals. And it’s biased against blacks, 23.05.2016, zuletzt besucht am 26.07.2018
[https://bit.ly/1XMKh5R].
38
    Glant /Martinez: For people of color banks are shutting the door to homeownership
[https://bit.ly/2NtWTRD].
39
    American Bankers Association, 2017; Morgan Chase machte eine ähnliche Einreichung und
verlangte zudem, dass Daten auch nicht für wissenschaftliche Studien freigegeben werden sollen,
siehe JP Morgan Chase Comment Letter on Proposed Amendments to Regulation C RIN 3170 AA10
[https://bit.ly/2NxJLen].
40
   Siehe etwa mit weiteren Nachweisen Rice/Swesnik, 2013.


                                              28
30

Gutachten:
                                                             Technische und rechtliche Betrachtungen
                                                              algorithmischer Entscheidungsverfahren




unzureichend ist).41 Eine zugegebenermaßen kursorische Analyse der Literatur findet dafür
keine Anzeichen. Neue Probleme durch den Einsatz von Algorithmen schafft das Gesetz
aber zumindest mit einer seiner Vorschriften. Abgelehnte Bewerber haben ein
Auskunftsrecht auf Begründung der Entscheidung. Wie auch die ähnliche Diskussion zum
„Recht auf Erklärung“ unter der Datenschutz-Grundverordnung stellt sich hier die Frage, wie
dieses Recht praktisch umgesetzt werden kann, wenn Maschinelles Lernen mit großen
Datensätzen zu opaken Entscheidungen führt. Dies könnte zu einer interessanten
vergleichenden     Analyse    des    Erfolgs   eines   „Rechts     zur    Erklärung“     im
Verbraucherschutzrechts führen, im Unterschied zu dem hier bevorzugten „Recht auf
Analyse“42, doch scheint es in den USA weder Fallrecht noch akademische Analyse zu
diesem Anspruch unter dem Fair Lending Act und seiner Zukunft im algorithmischen
Entscheiden zu geben.




41
     So etwa das ABA-Statement hier [https://bit.ly/2CDBKQW].
42
     Siehe dazu, unter dem Gesichtspunkt der Feststellung fehlerhafter Beurteilungen, Kapitel 7.2.


                                                    29
31

Zur nächsten Seite