Die Hoffnung war ursprünglich, dass Algorithmen die Wahrscheinlichkeit, dass ein Verurteilter nach seiner Entlassung wieder straffällig wird, objektiver vorhersagen als Menschen. Nach einer Studie der Stanford University und der University of California in Berkeley kamen daran aber Zweifel auf. [7]Danach gelingt es weder Mensch noch Maschine besonders gut, das Rückfälligkeitsrisiko zu bestimmen. Das Team aus Stanford und Berkeley nahm sich einen Datensatz vor, der 7000 sogenannte COMPAS-Einschätzungen von nachgewiesenen Kriminellen enthielt. Daraus entstanden individuelle Profile. Diese wurden dann wiederum 400 Laien präsentiert. Deren Aufgabe war es einzuschätzen, ob die betroffene Person wieder eine Straftat begehen wird. Die Studie aus 2018 fand heraus, dass COMPAS in 65 Prozent der Fälle richtig lag, die Laien jedoch in 67 Prozent der Fälle. Die Software ist seitdem nicht unumstritten.
Kritisch sehen die Forscher das Image von COMPAS und anderen Computersystemen auch aus anderen Gründen. Während sich ungerecht behandelt fühlende Personen vergleichsweise gut begründet gegen Entscheidungen von Richter*innen vorgehen können, ist es viel schwieriger, sich gegen scheinbar objektive Algorithmen zu wenden.
Ein weiterer Kritikpunkt ist, dass Richter*innen, also Menschen, freiwillig die Entscheidung an die Maschine abgeben.
Neuere Studien insbesondere zu Predicitve Policing verdeutlichen, dass auch aktuelle, verbesserte Algorithmen Rassismus nicht verhindern. [9]
1.3.2Bewertungssysteme für Bewerber*innen
Amazon begann bereits 2014 mit der Entwicklung eines automatischen Bewertungssystems für Bewerber*innen. Die Hoffnung war damals, dass Software diskriminierungsfreier als menschliche Entscheider*innen arbeitet. Als Eingabe für das System wurden die Bewerbungsunterlagen der letzten zehn Jahre verwendet. Es ist darauf hinzuweisen, dass die erfolgreicheren Kandidaten in dieser Zeit zumeist Männer waren. Dem für das Lernen verwendeten statistischen Modell war das Geschlecht der sich bewerbenden Personen nicht bekannt. Trotzdem fand es Eigenschaften, die mit dem Geschlecht korrelierten, wie beispielsweise eine Mitgliedschaft im Frauen-Schach-Club oder Zeugnisse von Colleges, die nur Frauen zulassen. Das Entwicklerteam verbesserte zwar die beiden genannten Stellen. Das Projekt wurde letztlich aber fallen gelassen, weil niemand vorhersehen kann, welche Informationen ein KI-System findet und verknüpft. [10]
Wer sich in den USA auf eine Stelle bewirbt, führt inzwischen sehr oft das erste Vorstellungsgespräch mit einer KI. Anhand kurzer Videos sollen mittels Gesichtserkennung, genauer einer Gesichts- und Mimik-Analyse, die Persönlichkeitsmerkmale von Bewerber*innen bestimmt werden. Auch hier verspricht man sich durch KI eine objektivere und schnellere Auswahl geeigneter Kandidat*innen. Auch in Deutschland experimentiert eine Firma mit dieser Technologie. Eine exklusive Datenanalyse einer von BR-Journalist*innen getesteten KI zeigt jedoch, dass sich die KI von Äußerlichkeiten, wie dem Tragen einer Brille, durch unterschiedliche Outfits oder dem Hintergrund, beeinflussen lassen kann. [34]Für Katharina Zweig weisen diese Erkenntnisse auf eine bekannte Schwierigkeit hin: „Das grundsätzliche Problem mit der Face-Recognition, der Gesichtserkennung, durch Maschinelles Lernen ist, dass wir niemals ganz genau wissen, auf welches Muster in einem Bild diese Maschinen reagieren.“ [34]Die Skepsis gegenüber Software zur Personalauswahl ist in Deutschland noch weit verbreitet. Auch die in den USA eingesetzten Produkte sind mittlerweile bei KI-Experten in die Kritik geraten, da die Ergebnisse sehr undurchsichtig sind. Die KI kann den Zusammenhang zwischen Mimik und Emotionen nur erkennen, wenn sich die Menschen nicht verstellen. Dies passiert aber gerade in Bewerbungssituationen sehr häufig. Die US-Firma Hirevue nahm kürzlich ihre Video-Analyse-Software vom Markt. Es wurde festgestellt, dass die Erkenntnisse aus der Gesichts- und Mimik-Analyse nur schwach mit der Job-Performance zusammenhängen. [34]
1.3.3Entscheidungssystem zur Kategorisierung von Arbeitslosen
Der Arbeitsmarktservice Österreichs erprobte 2019 ein Entscheidungssystem, das Arbeitslose in drei Kategorien einteilen sollte, erstens solche mit guten Chancen schnell wieder in den Arbeitsmarkt zurückzukommen, zweitens solche mit sehr schlechten Chancen und drittens alle anderen. Weiterbildungsmaßnahmen sollten dann bevorzugt der dritten Kategorie zukommen. Für die Einordnung wurden Eigenschaften von Personen wie Geschlecht, Altersgruppe, Ausbildung, Berufsgruppe, gesundheitliche Beeinträchtigungen oder Betreuungspflichten verwendet. Aufgrund dieser Merkmale hatten es Frauen, Ältere, Behinderte, Ausländer oder Pflegende schwerer, wieder in den Arbeitsmarkt zu kommen, und landeten vorzugsweise in der Kategorie 2. Dieser Algorithmus ist wegen des hohen Schadenspoetenzials bei der Kategorisierung und damit der Zuteilung der Weiterbildungsmaßnamen, vor allem aber wegen der Monopolstellung des Arbeitsmarktservice als problematisch einzustufen. [33]
Die Erfahrung lehrt mittlerweile, wo vorher gerechtfertigte oder ungerechtfertigte Diskriminierung war, wird die Maschine diese Diskriminierung aus den Daten lernen und übernehmen.
1.3.4Fehlerhafte Klassifizierung durch Bildererkennung
Normalerweise erkennt Googles Bilderkennungs-Software auf Fotos Gesichter sehr gut, zuverlässiger als Menschen und kann diese Gesichter sogar gruppieren und die gleiche Person auf anderen Fotos wiederfinden. Es kommt höchst selten vor, dass Menschen nicht erkannt oder als Gegenstände wahrgenommen werden. Doch 2015 war der Fehler etwas prekärer als bei anderen falschen Zuordnungen. Der Algorithmus erkannte dunkelhäutige Menschen nicht als Personen, sondern ordnete diese der Kategorie Gorillas zu. [11]
Der Grund dafür ist, dass diese Systeme mit überwiegend hellhäutigen Menschen trainiert wurden. Die Bilderkennungssysteme wurden eben nicht auf alle Menschen trainiert, sondern mit Daten, die selbst bereits Diskriminierung beinhalten. Ein Algorithmus, oder eine Künstliche Intelligenz, lernt dann unvollständig oder das Falsche. Das System reproduziert diese Ungleichheit, indem es diskriminiert.
Diskriminierung und Rassismus in KI-Systemen können nach Meinung der Forscherin Joy Buolamwini bestehende Vorurteile verfestigen. Joy Buolamwini, eine Forscherin am MIT, veröffentlichte 2018 zusammen mit Timnit Gebru die Ergebnisse eines Forschungsprojekts. [12]In dem Artikel wird eindrucksvoll gezeigt, dass die Produkte von Microsoft, IBM und dem chinesischen Unternehmen Face++ wesentlich schlechter darin sind, das Geschlecht einer Person zu bestimmen, wenn es sich um Frauen handelt, vor allem Frauen mit dunkler Haut. Zu Testzwecken hielt Joy Buolamwini ihr eigenes Gesicht in die Kamera – und wurde von vielen Systemen erst erkannt, als sie sich eine weiße Maske aufsetzte.
1.3.5Vorurteile in Sprachmodellen
Der Forscher Abubakar Abid von der Universität Stanford zeigt mit seinen Kollegen der Universitäten Standford und McMaster in einer aktuellen Untersuchung, dass das riesige Sprachmodell GPT-3 von OpenAI gängige Vorurteile in Bezug auf Religionen reproduziert. [24]Die Forschungsarbeit macht sehr deutlich, wie hartnäckig diese Vorurteile sind. Weil Sprachmodelle wie GPT-3 mit Hunderten von Gigabyte an Texten aus dem Internet trainiert werden, können die gelernten Assoziationen erst anhand des fertigen Produkts mühsam reproduziert werden. Gleichzeitig heißt das aber auch, dass verschiedene Sprachmodelle aufgrund des ähnlichen Trainingsmaterials vergleichbare Stereotypen lernen. Die KI kombinierte das Wort ‚Muslim‘ in fast einem Viertel (23 Prozent) der Versuche mit ‚terrorism‘. [30]„Insgesamt haben die Forscher ihrer Meinung nach deutlich gemacht, dass das mächtige Sprachmodell GPT-3 starke negative Stereotype zu Muslimen reproduziert, die in ganz verschiedenen Kontexten zutage treten. Die seien offenbar auch nicht einfach als Wortzusammenhang gelernt, sondern tiefer liegend verankert. Das erschwere es, sie zu erkennen und dagegen vorzugehen.“ [31]
Читать дальше