gi-studie-algorithmenregulierung
Dieses Dokument ist Teil der Anfrage „Gutachten des Sachverständigenrats für Verbraucherfragen“
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
sein könnten, die eine direkte Übertragung der Erfahrung aus anderen Rechtsordnungen ins
deutsche Recht wenn nicht unmöglich, so doch risikoreicher machen.
Da es eine zentrale Frage für den Gesetzgeber ist, wie sich verschiedene
Regulierungsansätze wirtschaftlich auswirken werden, wäre zudem eine Analyse aus der
Perspektive von „Comparative Law and Economics“17 im Prinzip wünschenswert. Eine erste
Literaturanalyse zeigte aber, dass es die dafür notwendigen international vergleichbaren
Datensätze nicht gibt und diese auch im Rahmen einer Kurzstudie wie der vorliegenden
nicht systematisch entwickelt werden können. Der einzige internationale Index von der Art,
wie er für eine solche Analyse benötigt würde, ist der internationale „Government AI
Readiness Index“.18 Dieser analysiert indes nur, wie gut Regierungen aufgestellt sind, um
Künstliche Intelligenz anwenden zu können, nicht aber, wie weit sie damit sind, diese
Anwendungen zu regulieren. Etwas anders sieht die Situation für „traditionelle“
algorithmische Verfahren aus, also Verfahren, die nicht spezifisch Maschinelles Lernen oder
KI im heutigen Sinne verwenden. Hier gibt es Studien zur Auswirkung von Regulierung
insbesondere in der Kreditindustrie. Die zu erarbeitende Studie verwendet diesen Ansatz
daher nur indirekt und führt keine systematische Analyse der Ergebnisse durch die
„Comparative Law and Economics“-Perspektive durch, offenbart aber womöglich, wie
effizient oder ineffizient in der Vergangenheit die Regulierung ähnlicher Probleme war.
3.4.2 Auswahl der Rechtsordnungen
Die einführende Diskussion zeigt, dass Lernen von anderen Rechtsordnungen dann am
erfolgversprechendsten ist, wenn eng verwandte Systeme trotz alledem sehr
unterschiedliche Lösungen entwickeln und mit ihnen Erfahrung sammeln können.
Eine erste Übersichtsanalyse der Literatur, die durch eine Präsentation im Rahmen einer
kontinentaleuropäischen Konferenz (Internationales Rechtsinformatik Symposion IRIS 2018)
validiert wurde, belegt, dass bislang noch keine umgesetzten Beispiele für lernende
Algorithmen-spezifische Regelungen im Verbraucherschutzrecht bestehen, aus deren
Erfahrung gelernt werden könnte.19 Außerhalb des europäischen Datenschutzrechts gibt es
erste Schritte im Finanzmarktrecht, so insbesondere die MiFID-II-Vorschriften zum
algorithmischen Hochfrequenzhandeln, die in Deutschland weitgehend durch das Gesetz zur
Vermeidung von Gefahren und Missbräuchen im Hochfrequenzhandel vorweggenommen
wurden. Die sehr unterschiedliche Regelungsmaterie macht direkte Vergleiche schwierig,
doch lassen sich zumindest Rückschlüsse zur technischen Machbarkeit von Archivierung
großer Mengen sequenzieller Daten ziehen, die Teil eines Prüfungsregimes sein müssen.
Trotz des weitgehenden Fehlens einschlägiger Gesetze wurde versucht, Beispiele zu
diskutieren, die die unterschiedlichen Rechtstraditionen in besonders typischer Weise
vertreten. Frankreich repräsentiert die zivilistische Tradition mit dem Gesetz zu einer
Digitalen Republik. Dies ist ein Versuch, außerhalb des Datenschutzrechts einen Anspruch
auf transparente und faire Algorithmen in einem Verbraucherschutzkontext zu schaffen.
Allerdings ist der Kern des neuen Rechts bestenfalls tangential zu den hier diskutierten
Fallszenarien. Auch gibt es bislang keine Erfahrung mit der Umsetzung und gerichtlichen
Auslegung dieses Rechts. Trotzdem stellt es als einer der seltenen Vorschläge der
Kodifizierung eines Algorithmenrechts eine besonders typische „zivilistische“ Lösung dar.
17
Siems 2005.
18
Oxford Insights: Government AI Readiness Index, zuletzt besucht am 26.07.2018
[https://bit.ly/2ynQDiL].
19
Siehe z.B. Pasquale 2015; Pasquale 2017.
22
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
Skandinavien wird durch einen aktuellen Fall zum algorithmischen Kreditscoring
repräsentiert. Unsere Literatursuche deutete an, dass sich die rechtliche Diskussion in
Kanada, Südamerika, Neuseeland20, Australien21, Asien und Afrika, soweit sie überhaupt
stattfindet, weitgehend an amerikanischen oder EU-Vorschlägen orientiert.22 Die Mehrheit
der Vorschläge, die wir diskutieren werden, kommt daher aus Großbritannien23 und den
USA. Obgleich dies eine Einschränkung bedeutet, erlaubt es doch das erwünschte
vergleichende Lernen und stellt eine rechtfertigbare Auswahl dar. Dies zum einen, weil die
beiden Staaten in der Entwicklung der relevanten Technologie führend sind – der
Government AI Readiness Index listet sie an erster und zweiter Stelle auf und hat diese
beiden Länder als besonders einflussreich identifiziert. Dies hat zu besonders großem
Regelungsbedarf geführt, der in aktive und gut dokumentierte Diskussionen des
Gesetzgebers mündete. Zum anderen decken die USA und Großbritannien relevante
Permutationen ab: Die USA haben, wie auch Deutschland, Aspekten des
Gleichbehandlungsgebots Verfassungsrang gegeben. Dies ist in Großbritannien nicht der
Fall, wo die ungeschriebene Verfassung eine derartige Verankerung nicht zulässt.
Andererseits hat Großbritannien durch den Equality Act 2000 die relevanten EU-Direktiven
in das nationale Recht überführt und damit einen Rechtsrahmen geschaffen, der dem
deutschen in dieser Hinsicht äquivalent ist. Wie das Land nach dem Ausscheiden aus der
Europäischen Union damit verfährt, bleibt abzuwarten. Zumindest derzeit gilt in
Großbritannien auch das relevante europäische Verbraucherschutzrecht, während die USA
in diesem Bereich eine historisch und systematisch sehr unterschiedliche Entwicklung
erfahren haben.
Auch das Datenschutzrecht wird in vielen Rechtsordnungen als eine
Regulierungsmöglichkeit für KI diskutiert.24 Hier unterscheidet sich der „sektorspezifische“
Ansatz in den USA besonders deutlich von der EU. Innerhalb der Europäischen Union
hingegen hat Großbritannien immer schon eine „minimalistische“ Position vertreten, die die
Bedeutung des Datenschutzrechts so weit als möglich zurückstuft. Dies ist zum einen ein
Ergebnis des rechtlichen Kontexts (aktive Zurückweisung eines allgemeinen privacy tort
20
Siehe Sek. IV des Berichts der New Zealand Human Rights Commission 2018.
21
Siehe die Diskussion in dem Productivity Commission Draft Report: Data Availability and Use 2016,
der europäisches Datenschutzrecht als Antwort auf algorithmische Diskriminierung empfiehlt.
22
Siehe dazu auch den Algorithmenreport der WWW-Foundation [https://bit.ly/2O50iDC], der gezielt
Beispiele außerhalb der EU/US-Debatte gesucht hat. Auch die Studie von Kathleen Siminyu „Artificial
Intelligence in Low/Middle Income Countries, The East African Experience“ [https://bit.ly/2wYtuER]
weist nicht auf spezifisch rechtliche Diskussionen hin – obgleich in dem jungen afrikanischen AI-
Umfeld Lösungen entwickelt werden, die einerseits von denen in Europa und den US abweichen,
auch bedingt durch die oft unzuverlässige IT-Infrastruktur, aber ähnliche Probleme aufwerfen sollten.
So beschreibt sie etwa Tala, eine Stiftung, die Mikrokredite in Kenia und Tansania anbietet.
Bedingung ist, dass der Kunde eine Smartphone-App benutzt, die biographische Daten sammelt, aber
auch die Kontakte der Lohnbewerber, die Größe ihrer Netzwerke und Unterstützungssysteme,
Mobilität und Routineverhalten wie den täglichen Anruf bei den Eltern, um die Kreditwürdigkeit zu
ermitteln.
23
„Großbritannien“ und „Britisches Recht“ werden im Folgenden als Abkürzung für das Recht
Englands, Schottlands und Nordirlands verwendet, da die für die Studie relevanten Gesetze
typischerweise entweder Bundesrecht sind oder, wo sie devolved matters betreffen, nicht zu
signifikanten Abweichungen zwischen den Regionen geführt haben. Es gibt bislang auch keine
Initiativen der Regierungen in Belfast oder Edinburgh, eigene Algorithmengesetze einzuführen. Für
die USA werden Unterschiede zwischen Bundes- und Landesrecht expliziter diskutiert werden
müssen.
24
Goodman/Flaxman 2017; Tene/Polonetsky 2012; Ishii 2017; Citron/Pasquale 2014; Wang/Wang
2017; Joshi 2018; Thelisson et al. 2017.
23
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
durch die Gerichte im 19. und frühen 20. Jahrhundert), zum anderen der kulturell-politischen
Erfahrung geschuldet (keine totalitären Regime seit Cromwell im 17. Jahrhundert).
Großbritannien und die USA eignen sich daher besonders für eine Triangulierung der
Common-Law-Diskussion in dem für diese Studie relevanten Bereich, mit dem britischen
Recht als mögliche „Brücke“ zwischen kontinentaleuropäischen und US-amerikanischen
Regulierungsphilosophien.
3.4.3 Verwendete Materialien
Rechtsvergleichende Forschung unterscheidet häufig zwischen dem geschriebenen Recht
(„law in books“) und dem praktizierten Recht („law in action“), um systematische
Unterschiede zwischen rechtlichem Ideal und praktischer Umsetzung zu verdeutlichen und
zu evaluieren. Im Kontext dieser Studie ist das insbesondere für die unterschiedlichen
Erfahrungen mit der Durchsetzung verbraucherschutzrechtlicher Normen relevant. Wie wir
im Laufe dieser Betrachtung sehen werden, gibt es bislang keine Erfahrung mit neuen,
speziell für die Herausforderung durch algorithmische Entscheidungen entwickelten
Gesetzen. Die wenigen erfolgreichen Gesetzesinitiativen sind zu jung, um ihre Auswirkung
auf wirtschaftliche Praxis und rechtliche Durchsetzung evaluieren zu können. Etwas
fruchtbarer ist das Fallrecht zu diskriminierender Anwendung von Algorithmen unter
etablierten rechtlichen Kriterien, und damit die analoge Anwendung von Regeln zur
menschlichen Entscheidungsfindung auf Computersysteme. Naturgemäß diskutieren diese
Entscheidungen aber häufig gerade nicht im Detail die spezifischen neuen Fragestellungen
und Probleme der Anwendung von Machine Learning. Trotzdem erlauben sie uns
zumindest, einige rechtsordnungsübergreifende Problemkonfigurationen zu identifizieren,
und die Hypothese, dass die neue Technologie unzureichend reguliert ist, zu konkretisieren
und zu verfeinern.
Um aber die empirische Grundlage zu verstärken, haben wir diese Kategorien um eine
weitere erweitert: „Recht in Planung“. Das heißt, zusätzlich zu formalen rechtlichen Quellen
und Studien zu ihrer Umsetzung im Rechtsalltag ziehen wir auch offizielle
Diskussionsdokumente, Vorschläge und akademische Studien hinzu, sofern diese von den
zuständigen Gesetzgebern entweder direkt beauftragt wurden oder durch institutionelle
Prozesse wie offizielle Anhörungen etc. besonders nahe an der Umsetzung sind.
Dieses Vorgehen soll sicherstellen, dass das Ziel einer rechtsvergleichenden und
internationalen Studie – Kompatibilität mit internationalen Entwicklungen – erreicht wird.
Rein abstrakte Diskussionsbeiträge von Akademikern aus anderen Rechtsordnungen, die
bislang nur von der Wissenschafts-Community rezipiert werden, haben wir hingegen soweit
relevant in den anderen Teilen dieser Untersuchung berücksichtigt.
3.4.4 Leitbeispiel Kreditscoring: Regelung, Aufsicht und Praxis im
Bereich „Fair Lending“ in den USA
Das Gutachten benutzt an vielerlei Stellen Beispiele aus dem Bereich der
Kreditwürdigkeitsprüfungen. Um die Probleme und Lösungsansätze im Zwischenspiel von
Technik/Statistik und Recht besser veranschaulichen zu können, gehen wir an dieser Stelle
kurz auf ein breit dokumentiertes Fallbeispiel aus den USA ein. Dort regelt der Equal Credit
Opportunity Act, spezifisch Regulation B25, dass die Kreditvergabe nicht auf der Grundlage
25
Federal Register, Bureau of Consumer Financial Protection, 21.12.2011, zuletzt online gesehen am
08.08.2018 [https://bit.ly/2N1ViD9]
24
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
von geschützten Attributen26 des Antragstellers erfolgen darf. Zur Aufsicht dieses Verbots
werden regelmäßig sogenannte Fair Lending Examinations durchgeführt. Zuständige
Behörde ist hierfür das zum Treasury Department gehörende Office of the Comptroller of the
Currency (OOC).27 Das OOC veröffentlicht Richtlinien zur Aufsicht von Banken bei der
Kreditvergabe28 und wendet diese auch selbst an. Dort wird unterschieden zwischen einer
ungleichen Vergabepraxis (Disparate Treatment) und einer vermeintlich neutralen
Vergabepraxis, die aber auf gleich zu behandelnde Gruppen verschiedene Auswirkungen
hat (Disparate Impact).
Die erste Gruppe umfasst zum einen offene Ungleichbehandlung (Overt Evidence of
Disparate Treatment) nach geschützten Merkmalen in den kommunizierten
Entscheidungskriterien der Bank wie beispielsweise unterschiedliche interne Richtlinien zur
Kreditvergabe an Personen mit verschiedenen ethnischen Hintergründen. Zum anderen
kann Ungleichbehandlung durch eine vergleichende Betrachtungsweise ermittelt werden
(Comparative Evidence of Disparate Treatment). Wenn eine Bank zwei nach einem
geschützten Merkmal verschiedene, aber sonst vergleichbare Antragsteller ungleich
behandelt, muss sie eine Rechtfertigung liefern, welche von der Aufsicht geprüft wird.
Prüfungsmaßstab ist konsequenterweise hierbei die Verneinung der „sonstigen
Vergleichbarkeit“.
Die zweite Gruppe betrifft Fälle, in denen eine Regelung angewendet wird, die zwar
geschützten Attributen gegenüber prinzipiell neutral ist, aber faktisch Mitglieder bestimmter
Gruppen negativer oder positiver behandelt als Mitglieder anderer Gruppen. Hierbei wird von
„unausgewogenen Effekten“ gesprochen (disparate impact oder effects test).29 Auf
rechtswidriges Verhalten wird hier erst nach Prüfung eines legitimen Handlungszwecks und
der Verhältnismäßigkeit geschlossen. Bei solchen Prüfungen können insbesondere
sogenannte Regressionsverfahren zur Anwendung kommen, wie wir sie in Kapitel 4.1
ausführlicher erläutern werden.
Eine Prüfung der Kreditvergabepraxis einer Bank erfolgt zweistufig.30 In Stufe eins werden
Bankdaten herangezogen, die zur Erfüllung der Pflichten des Home Mortgage Disclosure
Acts (HMDA) erhoben wurden. Hieraus wird zunächst ein Prüfungsdatensatz erstellt, indem
aus Vergabedaten bestimmter Kreditprodukte Gruppen von vergleichbaren Anträgen
gesammelt werden. Hierbei handelt es sich um Gruppen von Anträgen einer zu schützenden
Minderheitengruppe sowie deren Vergleichsgruppen, die von Mitgliedern der
Mehrheitsgruppe gestellt wurden, aber im Übrigen äquivalent sind. Die Entscheidungen über
die Anträge in den Vergleichsgruppen werden dann statistisch verglichen. Wenn die
Unterschiede signifikant genug sind, kann die Prüfbehörde eine detaillierte
Regressionsanalyse veranlassen (Stufe zwei). Es werden in einem leicht abgewandelten
Prozess abermals solche Paardatensätze erstellt und die einzelnen Antragsdaten
26
Die Regelung definiert eine „verbotene Entscheidungsgrundlage“ wie folgt: „Prohibited basis means
race, color, religion, national origin, sex, marital status, or age (provided that the applicant has the
capacity to enter into a binding contract); the fact that all or part of the applicant’s income derives from
any public assistance program; or the fact that the applicant has in good faith exercised any right
under the Consumer Credit Protection Act or any state law upon which an exemption has been
granted by the Bureau.“
27
Offizielle Webseite [www.occ.treas.gov/]; siehe auch Wikipedia [https://bit.ly/2MYCQva].
28
OOC Fair Lending Handbook (Version of January 2010) [https://bit.ly/2N2Qlde].
29
Im deutschen Recht entspricht dies der Kategorie der mittelbaren Benachteiligung.
30
Die Autoren gründen ihre Erklärungen zum Teil auf Avery et al. 1997.
25
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
gegebenenfalls durch weitere relevante Variablen ergänzt.31 Bei der statistischen Prüfung
wird mit den Prüfungsdaten ein logistisches Regressionsmodell trainiert, welches das
Entscheidungsverhalten der Bank simuliert. Anschließend werden die einzelnen Variablen
auf ihren statistischen Einfluss in der Regression überprüft, wobei der
Minderheitenzugehörigkeit eines Antragstellers besondere Bedeutung zukommt. Ist sie
statistisch signifikant, ist eine detaillierte Prüfung der Vergabepraxis der Bank geboten und
auffällige Einzelentscheidungen werden unter Umständen genauer untersucht. Hier können
Aspekte der Datenerhebung und -verifizierung eine Rolle spielen, da diese nicht in das
Regressionsmodell integriert sind und nur durch das Modell als „verdächtig“ eingestuft
werden können.32
Dieses Fallbeispiel illustriert einige Aspekte der Integration von Statistik und lernenden
Algorithmen (in diesem Fall die logistische Regression) in eine Gleichbehandlungsprüfung.
Wir halten Folgendes fest: Der Equal Credit Opportunity Act, der Fair Housing Act und der
Home Mortage Disclosure Act sind vergleichsweise „alte“ Antidiskriminierungsgesetze
(1974, 1968 und 1975) und müssen vor dem Hintergrund des Civil Rights Movements der
1960er Jahre verstanden werden. Schutzgegenstand sind deshalb insbesondere historisch
benachteiligte Gruppen, auch wenn das Gesetz auch aus verfassungsrechtlichen Gründen
„on its face“33 neutral formuliert ist und jede Diskriminierung aufgrund von z.B. Ethnizität
verbietet, nicht nur die zu Ungunsten von Minderheiten. Dies erleichtert die statistische
Prüfung und erklärt, warum ähnliche Methoden nicht in gleicher Weise etwa in der Kontrolle
der Zuweisung von Studienplätzen angewendet werden kann: Dort ist eine „holistische
Evaluierung“ unter eng umschriebenen Umständen erlaubt (wenngleich politisch
umstritten),34 die im Namen von positiver Diskriminierung die Anzahl von Studenten aus
historisch benachteiligten Minderheiten erhöhen soll. Eine derartige „holistische Evaluierung“
macht es sehr viel komplizierter, statistisch die korrekte Anwendung von
Entscheidungskriterien zu überprüfen.
Selbst im Equal Credit Opportunity Act finden wir eine problematische Regelung: Anders als
die anderen beiden Gesetze verbietet er auch Altersdiskriminierung. § 1691 b) (3) erlaubt
die Hinzunahme von Alter als Kriterium, sofern dies a) durch ein empirisch erzeugtes
Kreditscoringsystem geschieht, das beweisbar und statistisch korrekt ist, und b) älteren
Bewerbern keinen „Altersmalus“ zuweist. Solch ein „empirisch erzeugtes System“ wird
heutzutage typischerweise durch lernende Algorithmen erzeugt und ist damit der direkteste
Link zwischen diesen Gesetzen und dem Thema dieser Studie. Doch verlangt das Gesetz
mehr als nur „statistische Korrektheit“, das Scoring muss auch demonstrably sound sein,
d.h., die Daten, die zum Lernen verwendet werden, müssen empirisch korrekt sein. Zudem
ist das Ergebnis aber auch noch durch eine harte Regel eingeschränkt: Selbst wenn es eine
klare statistische Korrelation zwischen hohem Alter und Schuldnerverzug gäbe und diese
etwa durch Änderungen im Risikoverhalten biologisch erklärbar wäre, darf sich das Alter
nicht gegen den Antragsteller auswirken. Diese Kombination aus statistischem und
regelbasiertem Scoring lässt sich nicht mehr direkt auf Diskriminierung durch ausschließlich
31
Calem/Longhofer 2002 beschreiben in ihrem Artikel ein Fallbeispiel einer solchen Untersuchung, in
der bei einer Prüfung der zweiten Stufe Daten für insgesamt 72 Variablen für jede Entscheidung
gesammelt wurden. Das zur Prüfung genutzte Modell beinhaltete nach Kürzungen durch Experten
schließlich nur noch 15 Variablen über die Kreditwürdigkeit der Antragsteller.
32
Das Fallbeispiel von Calem/Longhofer 2002 hier detailliert zu reproduzieren würde den Rahmen
des Gutachtens überschreiten. Wir verweisen hier abermals auf Kapitel 4.
33
Siehe Annotation 20 - Fourteenth Amendment: Testing Facially Neutral Classifications Which
Impact on Minorities [https://bit.ly/2wXAEKn].
34
Siehe Grutter v. Bollinger, 539 U.S. 306 (2003).
26
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
statistische Modelle wie die oben angeführten testen. Im rechtsvergleichenden Teil werden
wir eine Reihe ähnlicher Erfahrungen finden: Selbst innerhalb einer Rechtsordnung, und bei
der Regulierung des gleichen Lebenssachverhalts, ist das Verständnis dessen, was als
rechtswidrige Diskriminierung zählt, oft von Gesetz zu Gesetz unterschiedlich und nur in
Teilen auf allgemeine, mathematische Aussagen reduzierbar. Insbesondere für die
verschiedenen Spielarten der indirekten Diskriminierung deuten die Erfahrungen mit den
Grenzen des Equal Credit Opportunity Acts an, dass es keine abstrakte, universale Methode
der Analyse gibt. Tests, die wie hier die Entscheidungen ex post modellieren, sind stark
abhängig vom Anwendungsbereich (hier der Kreditindustrie), von den spezifischen
Gesetzen, die in ihm gelten, und ihrer oft durch kontingente historische und politische
Faktoren beeinflussten Auslegung durch die Gerichte. Dies scheint auch auf die
Gefährdungsszenarien der vorliegenden Studie anwendbar – allgemeine statistische
Testverfahren können zwar häufig (aber nicht immer) einen ersten Verdacht insbesondere in
Fällen direkter Diskriminierung erzeugen. Die Evaluierung, ob diese im konkreten Fall aber
auch rechtswidrig ist, verlangt darüber hinaus ein Verständnis des Anwendungsbereichs,
das nicht auf statistische Verfahren reduzierbar ist. Gegenüber einer allgemeinen Lösung,
dem Problem diskriminierender Algorithmen gesetzgeberisch Herr zu werden, ist Skepsis
geboten, zumindest insoweit versucht werden soll, die juristischen Diskriminierungsbegriffe
auf rein statistische Aussagen zu reduzieren.
Wie erwähnt dienen Gesetze wie der Equal Credit Opportunity Act dem Schutz historisch
benachteiligter und damit auch wirtschaftlich schwächerer Gruppen und müssen auch in
ihrem historischen und gesellschaftlichen Kontext gesehen werden. Die hohen Kosten des
Klageweges in den Vereinigten Staaten und die Methode der Kostenzuweisung (bei der im
Regelfall auch der Gewinner seine Kosten tragen muss) machten eine Durchsetzung
ausschließlich durch Einzelklagen abgewiesener Bewerber unmöglich. Obgleich
Verletzungen des Equal Credit Opportunity Acts durch abgelehnte Bewerber sowohl durch
Einzelklagen als auch durch Class Actions im Prinzip möglich sind, scheinen sie eine
Ausnahme zu sein und vor allem nicht die oben diskutierten Evaluierungsmethoden zu
benutzen. Sehr viel häufiger sind Überweisungen zum Department of Justice, welches dann
in Klageverfahren Schadensersatz und Strafschadensersatz verlangen kann.35 Im Jahr 2016
wurden etwa 18 „Fair Lending“-Ermittlungen durchgeführt, von denen 7 zu Klagen und 6 zu
außergerichtlichen Vergleichen im Werte von 37 Millionen US-$ führten.36 Fair Lending
Examinations spielen damit eine doppelte Rolle: Werden sie nicht bestanden, sind sie ein
starker, aber widerlegbarer Beweis, dass ein Gesetzesverstoß vorlag (in den 7 Verfahren
argumentierten die Banken, dass die Entscheidungen letztendlich begründet waren). Eine
bestandene Prüfung hingegen schützt als widerlegbare Vermutung insbesondere vor Class
Actions, aber auch Einzelklagen, was die geringe Anzahl erfolgreicher Klagen miterklärt. Im
Rahmen der in Kapitel 6.2 entwickelten rechtsvergleichenden Systematik verbinden sie
daher das Aufsichtsmodell mit dem der Beweislastzuweisung.
3.4.5 Algorithmen als Mittel zum Aufdecken von Diskriminierung
Die oben angeführten Strukturen wurden historisch entwickelt, um menschliche
Entscheidungen und regelbasierte Expertensysteme zu kontrollieren, nicht lernende
Algorithmen. Lernende Algorithmen dienen hier also der Kontrolle der Entscheidungsfindung
und sind „agnostisch“ hinsichtlich der Methodik, die Banken und Kreditinstitute zur
35
Cook 1997.
36
The Attorney General’s 2016 Annual Report to Congress Pursuant to the Equal Credit Opportunity
Act Amendments of 1976, zuletzt besucht am 26.07.2018 [https://bit.ly/2Qg5kyx].
27
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
Entscheidungsfindung benutzen, durch lernende Algorithmen, regelbasierte Scoringsysteme
oder manuell. Lernende Algorithmen stellen daher nicht notwendigerweise (nur) eine
Herausforderung für den Verbraucherschutz dar, sie ermöglichen auch eine effizientere
Ermittlung durch Prüfungsbehörden sowie Dritte. In einer großen Anzahl der Fälle, in denen
diskriminierende Algorithmen zur Kenntnis der Öffentlichkeit gebracht wurden, geschah dies
durch eine Analyse von Wissenschaftlern, Journalisten oder NGOs, die ähnliche Methoden
zur Rekonstruktion von Entscheidungen auf Grundlage der berichteten Datensätze benutzen
wie die Fair Lending Assessments.
So entdeckte etwa ProPublica, eine dem kritischen Journalismus verpflichtete Stiftung, die
inhärente Diskriminierung in dem von vielen US-Staaten zur Risikoeinstufung bei
Strafzumessung und Bewährungsentscheidungen benutzten COMPAS-System durch die
Analyse von 7000 Risk Scores in Broward County, Florida.37 Für Kreditscoring war es eine
Studie einer ähnlichen Stiftung, Reveal, die über ein Jahr über 31 Millionen Entscheidungen,
mit einer Kombination aus Methoden, die von staatlichen Stellen in der Fair Lending
Analysis verwendet werden, und zusätzlichen fortgeschrittenen statistischen Algorithmen
analysierte. Das Ergebnis war die Feststellung einer anhaltenden Ungleichbehandlung
ethnischer Minderheiten.38 Es ist der Erfolg derartiger Ermittlungen, der die Frage aufwirft,
wie weit es unter Schutz legitimer Wirtschaftsinteressen und der Privatheit der Antragsteller
möglich ist, die relevanten Datenmengen weiteren Kreisen zugänglich zu machen.
So wird etwa auch in Großbritannien der Gedanke einer Algorithmentreuhand diskutiert, wie
wir unten sehen werden. Offenlegungspflichten werden aber eine zentrale Rolle in der
Algorithmenregulierung spielen, da erst diese die statistische Analyse ermöglichen und so
„Big Data mit Big Data bekämpft“ werden kann. So konnte die Reveal-Studie nicht direkt
Score-Daten verwenden, da diese nicht öffentlich gemacht werden. Die American Bankers
Association hat sich gegen weitere Offenlegungspflichten ausgesprochen und zitiert außer
den Kosten für ihre Mitglieder auch Sorgen über die Datensicherheit und den Schutz der
Privatheit ihrer Kunden.39 Gerade die Reveal-Studie zeigt, wie sehr viel schneller die
Wissenschaft neue Analysemethoden entwickelt, als diese von offizieller Seite
aufgenommen werden können, wobei sich aber auch die Frage der „Prüfer der Prüfer“ stellt.
Wenn wie in unserem Beispiel Maschinelles Lernen zur Überprüfung von
Entscheidungsgerechtigkeit verwendet werden soll, müssen diese Methoden selber wieder
evaluiert, getestet und gegebenenfalls akkreditiert werden.
Die Reveal-Studie bestätigt eine Reihe ähnlicher Analysen: Fair Lending Examinations
waren nur bedingt erfolgreich, den Willen des Gesetzgebers zu einer gerechteren
Kreditvergabe umzusetzen.40 Es ist aber schwer zu beurteilen, ob sich dies durch den
verstärkten Einsatz von lernenden Algorithmen verbessert oder verschlimmert hat. Der
Bankensektor zumindest nimmt die geringe Anzahl erfolgreicher Klagen als Zeichen dafür,
dass es keine systematischen Probleme gibt (und nicht die Rechtsdurchsetzung
37
Website ProPublica: Machine Bias - There’s software used across the country to predict future
criminals. And it’s biased against blacks, 23.05.2016, zuletzt besucht am 26.07.2018
[https://bit.ly/1XMKh5R].
38
Glant /Martinez: For people of color banks are shutting the door to homeownership
[https://bit.ly/2NtWTRD].
39
American Bankers Association, 2017; Morgan Chase machte eine ähnliche Einreichung und
verlangte zudem, dass Daten auch nicht für wissenschaftliche Studien freigegeben werden sollen,
siehe JP Morgan Chase Comment Letter on Proposed Amendments to Regulation C RIN 3170 AA10
[https://bit.ly/2NxJLen].
40
Siehe etwa mit weiteren Nachweisen Rice/Swesnik, 2013.
28
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
unzureichend ist).41 Eine zugegebenermaßen kursorische Analyse der Literatur findet dafür
keine Anzeichen. Neue Probleme durch den Einsatz von Algorithmen schafft das Gesetz
aber zumindest mit einer seiner Vorschriften. Abgelehnte Bewerber haben ein
Auskunftsrecht auf Begründung der Entscheidung. Wie auch die ähnliche Diskussion zum
„Recht auf Erklärung“ unter der Datenschutz-Grundverordnung stellt sich hier die Frage, wie
dieses Recht praktisch umgesetzt werden kann, wenn Maschinelles Lernen mit großen
Datensätzen zu opaken Entscheidungen führt. Dies könnte zu einer interessanten
vergleichenden Analyse des Erfolgs eines „Rechts zur Erklärung“ im
Verbraucherschutzrechts führen, im Unterschied zu dem hier bevorzugten „Recht auf
Analyse“42, doch scheint es in den USA weder Fallrecht noch akademische Analyse zu
diesem Anspruch unter dem Fair Lending Act und seiner Zukunft im algorithmischen
Entscheiden zu geben.
41
So etwa das ABA-Statement hier [https://bit.ly/2CDBKQW].
42
Siehe dazu, unter dem Gesichtspunkt der Feststellung fehlerhafter Beurteilungen, Kapitel 7.2.
29
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
4 Algorithmische Entscheidungen aus technischer
Sicht
4.1 Einführung in Maschinelles Lernen und ADM
Maschinelles Lernen (ML), oder Machine Learning, ist ein Teilgebiet der Forschung im
Bereich der Künstlichen Intelligenz mit starkem Bezug zu angewandter Statistik und
mathematischer Optimierung. Es existieren verschiedene Definitionen von Maschinellem
Lernen. Nach der gebräuchlichsten bezeichnet ML die Forschung und Anwendung von
Algorithmen, die eine bestimmte Aufgabe bewältigen und ihre Leistung/Performanz durch
eine Form von Erfahrung verbessern.43 Diese Erfahrung wird typischerweise durch
sogenannte Trainingsdaten bereitgestellt, also eine Menge von Problem-/Aufgabeinstanzen
mit „korrekten Lösungen“, von denen der Algorithmus lernen kann. In solchen Fällen spricht
man auch vom sogenannten Supervised Machine Learning.44
Die Aufgabe von Interesse ist in den meisten Fällen die Vorhersage des Werts einer
Zielvariablen (statistische Terminologie: „abhängige Variable“) von einer Menge
Eingabevariablen (statistische Terminologie: „unabhängige Variablen“). Anhand der Natur
der Zielvariablen unterscheiden sich verschiedene Arten von ML. Ist das Ziel der Vorhersage
kategorisch (z.B. eine Ja-Nein-Entscheidung zur Kreditvergabe oder eine Einstufung des
Verbrauchers in eine von mehreren möglichen Risikogruppen), spricht man von
Klassifikation. Ist die Zielvariable hingegen ein quantitativer Zahlenwert (z.B. die
automatische Ermittlung eines Preises in einem Onlineshop anhand von Kundendaten),
handelt es sich um eine Regression.
In den hier betrachteten Supervised Machine Learning-Methoden trainiert also ein
bestimmter Lernalgorithmus anhand von Trainingsdaten ein Modell, welches dann für
strukturell gleiche Daten Zielwerte vorhersagen kann. Vereinfacht ausgedrückt besteht ein
Modell hierbei aus einer Menge im Trainingsprozess kalibrierter Parameter, die von einem
modellspezifischen Vorhersagealgorithmus (bzw. einer mathematischen Gleichung) mit den
Eingabedaten kombiniert werden, wodurch der neue Zielwert ermittelt wird. Verschiedene
ML-Modelle haben hierbei verschiedene Eigenschaften wie Modellierungskapazität (d.h. die
Fähigkeit, komplexe Muster in den Trainingsdaten zu erkennen), Anforderungen an
Ressourcen zum Training (Rechnerzeit und Arbeitsspeicher), Menge benötigter
Trainingsdaten, Annahmen über die Struktur der Datenrepräsentation, Sensibilität
gegenüber bestimmten Phänomenen in der Verteilung der Daten etc. Von besonderem
Interesse ist hierbei das Ausmaß der Möglichkeit, das gelernte Modell (also die Parameter in
Kombination mit dem Vorhersagealgorithmus) manuell zu inspizieren und den Einfluss der
einzelnen Eingabevariablen auf die Vorhersage quantitativ und/oder qualitativ zu
interpretieren. Eignet sich ein Modell gut für eine solche manuelle Untersuchung, spricht
man typischerweise von einem Whitebox-Modell. Wenn jedoch das Modell lediglich unter
erheblichem Zeitaufwand und/oder nur mit der Hilfe von ML-Expertise interpretiert werden
kann, wird es als Blackbox-Modell bezeichnet. Zwischen diesen beiden Polen existiert
43
Mitchell 1997, S. 2.
44
Weitere Teilgebiete sind Mustererkennung ohne Trainingsdaten (Unsupervised Machine Learning)
und diverse Mischformen (Semi-Supervised Machine Learning). Eine umfassende Darstellung ginge
weit über den Umfang der Studie hinaus.
30
Gutachten:
Technische und rechtliche Betrachtungen
algorithmischer Entscheidungsverfahren
folglich eine Bandbreite an leicht und schwer interpretierbaren Modellen mit zahlreichen
mehr oder weniger zugänglichen Methoden der Sichtbarmachung.
Es existiert eine Vielzahl verschiedener Algorithmen für Maschinelles Lernen.45 Im Bereich
Kreditscoring werden in einer Publikation von 2015 über 40 verschiedene Algorithmen und
Verfahren für Maschinelles Lernen unterschieden.46 Andererseits haben wir in unseren
Gesprächen erfahren, dass die meisten Unternehmen beim Kreditscoring im Wesentlichen
die gleichen, bewährten Verfahren verwenden (z.B. logistische Regression). Im Kontext
dieser Studie gehen wir daher nur zu Einführungszwecken auf ausgewählte Modelle ein.
Das Ziel der Ausführungen ist, (1) dem Leser Grundlagen in der Repräsentation von Daten
als vieldimensionale Vektorräume zu vermitteln, (2) das Konzept von Modellparametern im
Spannungsfeld zwischen Whitebox- und Blackbox-Modellen zu veranschaulichen sowie (3)
einen Kurzabriss über Methoden zu geben, mit denen Modelle, bzw. ihre Parameter,
automatisch von Daten „gelernt“ werden können. Aus Letzterem lassen sich bestimmte
Lernverhalten ableiten, die Algorithmen/Modelle zu „diskriminierendem“ Verhalten
verleiten.47
4.1.1 Grundlagen linearer und logistischer Regression
Die wohl einfachste Form selbstlernender, parametrisierter Modelle sind in der Statistik
schon seit langer Zeit gebräuchliche Regressionsmodelle. In der Grundform handelt es sich
dabei um eine Zielvariable y, deren Wert von den Eingabevariablen x1, …, xn berechnet wird,
indem jede Eingabevariable mit einem Gewichtsparameter w1, …, wn multipliziert und
schließlich alles aufsummiert wird. Dies ergibt eine sogenannte „lineare Regression“:
Mit Hilfe einer Regression lassen sich beispielsweise Mietpreise von Wohnungen anhand
der Quadratmeterzahl, der Anzahl der Zimmer und Bäder sowie der Entfernung zur
Stadtmitte berechnen. Das Modell lernt, indem es solche Parameter ermittelt, die die
Gesamtabweichung (Error oder Loss) des durch die Gleichung ermittelten Preises
minimieren. Es existieren verschiedene Methoden zum Finden dieses Optimums im Raum
aller möglichen Parameterkombinationen mit verschiedenen Eigenschaften. Eine Einführung
in solche Algorithmen würde den Rahmen dieser Studie übersteigen. Nach der Optimierung
lassen sich die Parameter des Modells untersuchen und gegebenenfalls sachliche Schlüsse
daraus ziehen. Zum Beispiel würde die Anzahl der Zimmer mit einem Gewichtsparameter
versehen, der bei der Untersuchung darüber Aufschluss gibt, mit welchem Faktor
zusätzliche Zimmer zum Gesamtwert der Wohnung beitragen. Hierdurch ist die lineare
Regression ein Beispiel eines einfachen und erklärbaren Modells statistischen Lernens. Das
Maß der Erklärbarkeit ist semantisch mit den Eingabevariablen verknüpft, da wir die
Parameter als quantitativen Einfluss der jeweiligen Variablen auf die Gesamtvorhersage
verstehen können.
Die lineare Regression ist eine übliche Technik zum Vorhersagen von Zahlenwerten. Wenn
stattdessen ein binärer Wert (entweder 0 oder 1) gesucht wird (und damit ein
45
Füser 2013.
46
Lessmann et al. 2015.
47
An dieser Stelle sei angemerkt, dass im technischen Teil dieses Gutachtens terminologisch nicht
von einer „Diskriminierung” gesprochen werden kann, sondern lediglich von einer
Ungleichbehandlung von verschiedenen Gruppen innerhalb von Datensätzen.
31