KI und Arbeitswelt: Kooperation mit künftiger Intelligenz?

Diskussionen um KI sind bemüht, Nutzen und menschliche Vorurteile in Einklang zu bringen. Die Analyse medizinischer Bilddateien erreicht hohe Erkennungsraten und ist oft besser als erfahrene Diagnostiker. Aber beim Auswerten von Lebensläufen für Personaler und die Anreicherung mit Inhalten über Bewerber aus Profilen sozialer Medien ist für viele Schluss mit der Akzeptanz automatisierter Zuarbeit durch Software.

Eine Menge lernen

Da die meisten Systeme auf Mustererkennungsprozessen auf Basis von maschinellem Lernen basieren, tauchen erste rechtliche Probleme auf. Denn diese Systeme lernen selbständig durch eine erste Lernmenge. Das sind Musterdaten, die Experten zuvor ausgewählt haben, weil sie sie für repräsentativ halten hinsichtlich erwünschter Treffer.  Denn so ein Mustererkennungsprozess produziert Treffer, vergleichbar mit den Covid-Tests.  Aber nicht alle Treffer sind auch wirklich passend. Denn leider repräsentieren Lernmengen oft nur wenige Variablen. Bei bildgebenden Verfahren möchte man meinen, dass auffälliges Gewebe bei allen Menschen gleich aussieht. Doch das hat sich nicht für alle Ethnien bestätigt und erst recht nicht für beide Geschlechter. Wenn die Lernmenge erfolgreicher Mitarbeiter weitgehend männliche Führungskräfte enthält, lernt das System schon zu Anfang bestimmte unerwünschte Muster wie Amazon schmerzlich erleben musste. Noch problematischer wird das bei Intersektionalität, also bei lesbischen schwarzen Frauen muslimischen Glaubens. In aktuellen Lernmengen wird so eine Führungskraft relativ zu anderen Ausprägungen der Attribute Geschlecht, sexuelle Ausprägung und Muttersprache sehr selten repräsentiert sein. Und KI auf Basis von maschinellem Lernen (ML) kann nun mal nichts Anderes, als erlernte Ähnlichkeiten in neuen Daten mit einer bestimmten Wahrscheinlichkeiten zu identifizieren. Forscher schreiben zwar, es handele sich um automatisierte Entscheidungen nach menschlichem Vorbild. Forscher wissen aber noch immer sehr wenig darüber, wie Entscheidungen im Gehirn statt finden. Mit Entscheidungen hat das Erkennen von Mustern also wenig bis nichts zu tun. Und KI sollte ja besser sein. Wenn aber die menschliche Auswahl der initialen Lebensläufe durch Menschen zu einer nicht repräsentativen Lernmenge führte, dann ist das Vorbild Mensch nicht immer eine gute Richtschnur. Denn KI blickt dann über dieses Lernmenge in den Rückspiegel um nach vorne zu fahren. Ein Problem, das schon bei Business Intelligence und Data Warehouses auftrat. Ältere Leser erinnern sich noch. Zusätzlich sind ML-Anwendungen anfällig für data leakage, auch und gerade die vermeintlich neutralen Formen des unsupervised oder reinforced learning. Data Leakage meint, dass Informationen aus dem Ergebnis (den gesuchten Besonderheiten in Lebensläufen) bereits vollständig in einzelnen Features (Spalten) oder über Zeilen (Sharing) der Lernmenge (Trainingsdaten) enthalten sind. Die Folge sind überpräzise Erkennungsraten, die Techniker freuen, aber das System in der täglichen Anwendung praktisch sinnlos machen.

Vorbild Mensch

Schon der Psychologe Meehl schrieb 1954, man könne menschliche Entscheidungen in strukturierter und formale Weise abbilden. Und tatsächlich haben Psychologen zeigen können, dass Expertensysteme, die mit Regeln gefüttert wurden – nach denen gute Diagnostiker klinische psychologische Symptome interpretieren – häufiger zu präziseren Diagnosen psychischer Störungen führen als es die Menschen hinkriegen, deren Regeln das System nutzt. Aber sind das tatsächlich Entscheidungen? Denn zunächst sind die Gemeinsamkeiten, dass eine Wahl zwischen Optionen getroffen wird. Wenn zuwenig Dimensionen für eine klare Entscheidung vorliegen, kann der Mensch Zusatzinformationen suchen. Dasselbe passiert bei modernen digitalen Bewerbermanagementsystemen, die präferierte Lebensläufe mit Inhalten aus sozialen Medien anreichern (ich lasse hier zunächst bewusst die relevante datenschutzrechtliche Dimension aus).  Hat also ein Personaler Schwellwerte bei den Schulnoten angegeben und eine bestimmte Anzahl an Berufsjahren, sortiert das System alle aus, die diesen Schwellwert unter- oder überschreiten. Für die restlichen Personen wird das Netz durchforstet. Ersteres ist mit diesen Regeln auch völlig im Einklang mit dem AGG, letzteres verarbeitet persönliche Daten Dritter ohne deren Kenntnis und Einfluss. Das ist vor allem dann problematisch, wenn eine API eines Anbieters sozialer Medien nur bestimmte Inhalte filtert und keiner weiß nach welchen Regeln. Wenn aber das KI-System der Personalabteilung selbst lernen sollte, Vorschläge auf Basis der Lebensläufe bereits eingestellter Angestellter zu liefern, laufen wir in große rechtliche Probleme. Eigentlich müsste auch hier die 4/5-Regel aus den USA gelten.

Zum Glück kann man diese Systeme mittlerweile auch an bestimmten Stellen steuern, sodass sie neben der Lernmenge auch noch Regeln befolgen. Die Blackbox hat also Schrauben und Schalter bekommen. Der Mensch allerdings entscheidet nur in Routinesituationen so ähnlich wie KI, und wenn er oder sie über wenig Ressourcen verfügt. Denn nur dann scannt er oberflächlich die Umwelt auf Indikatoren, die ihn oder sie an vergangene Erfahrungen  erinnern. Er oder sie sucht Bekanntes (Ähnliches) und macht Vorhersagen über einer erwünschte oder erfolgreiche Zukunft angesichts bestimmter Optionen. In wichtigen Situation und bei ausreichend Ressourcen durchforsten Menschen die Welt solange kritisch nach verschiedenen Informationen, bis sie eine gesicherte Entscheidung treffen können. Reicht ihnen das nicht, treffen sie keine Entscheidung und warten ab. Das sollte auch das Modell bei der Bewerberauswahl sein. Die Sozialpsychologie kennt ein beschreibendes Modell für beide Strategien (Elaboration-Likelihood-Modell).

Bei KI muss die erwünschte Zukunft als Ziel fest verdrahtet werden. Wenn der Input verarbeitet wurde, gibt es einen Output: Einladung zum Bewerberinterview oder nicht. Der Mensch hat die Freiheit, Informationen kritisch zu würdigen, zu verwerfen oder neue Situationen anzustoßen, um mehr Wissen zu sammeln, abzuwarten oder dieselben Inhalte mit „anderen Augen“ neu zu analysieren. KI läuft linear – oft mit Schleifen – denselben Weg entlang bis zu einem gewünschten Ziel: Ja oder Nein. Denn leider gibt es keine mehwertige Logik in der Informatik, es ist eine binäre Welt. Und hier steckt das Problem. Menschen messen einem Ziel einen Wert zu und kalkulieren, wie wahrscheinlich die Zielerreichung ist und welche Kosten (Aufwand, Zeit, Kraft) nötig sind. KI tut das nicht. Und das macht vielen Menschen Angst, den sie zögert nicht. Sie verfügt auch nicht über Timing oder einen Sinn für Zwischentöne. Das ist kein Wunder, denn sie versteht nicht wirklich, was gerade passiert. Deswegen entscheidet sie auch nicht. Sie akkumuliert Werte, bis am Ende 1 oder 0 oder ein Zwischenwert erscheinen. Dies kann man gut als Wahrscheinlichkeit interpretieren. Aber der Mensch muss dann abwägen, welcher Wert für welche Variante spricht.  KI verfügt nämlich nicht über eine besondere subjektive Perspektive einer verkörperten Persönlichkeit: die Menschen, die die Entscheidung betreffen sind den Entscheidern ähnlich. Sie sind einzigartig. Sie haben Zugang zu Lust, Freude und Frust. Diese Form sozialer Perspektivübernahme ist wesentlicher Teil menschlicher Entscheidungen. Aus Sicht von social cognition ist es sogar der wesentliche Teil menschlicher Entscheidungen, weil sie nur in Gruppen überlebt haben. Diese Gruppenmentalität fehlt aber völlig bei KI. Man müsste ihnen Kooperation beibringen. Untereinander und miteinander. Und das geht deutlich über Schwarmintelligenz hinaus. Und die ist keineswegs trivial.

Angst und Entlastung

Psychologen erforschen bereits wie Bewerbende und Dritte auf den Einsatz von KI in der Arbeitswelt reagieren. Das Problem dabei ist: Im Labor fehlen persönliche Parameter wie die eigene aktuelle biographische Betroffenheit. Situationsbeschreibungen bei denen Probanden entscheiden müssen, wie man sich fühlen würde, wenn KI diese oder jene Entscheidung treffen würde, lassen diesen subjektiven Lebensweltbezug vermissen. Wer schon mal ein Jobinterview mit einem Chatbot geführt hat, fühlt sich mangels Interaktion schnell unwohl. Man bekommt Fragen oder Situationen als Aufgaben erklärt und die Antworten werden aufgenommen und oft maschinell ausgewertet. Sehr moderne System sind sogar adaptiv und können auf Basis bestimmter Analyseergebnisse neue Aufgaben und Fragen generieren. Das klingt für deutsche Firmen noch wie ein entfernter Traum, ist in den USA aber keineswegs selten. Wenn man an Clubhouse, Whatsapp oder Firmentelefone denkt, wird einem richtig mulmig bei dem Gedanken, dass KI eigene Gespräche analysiert. Denn anders als frühe Expertensystem aus den 1990er Jahren können moderne System mehr in quantitativer und qualitativer Hinsicht.  Wenn man aber an Chatbots denkt, die für depressive Personen Tag und Nacht zur Verfügung stehen und nicht selten in schlimmen Nächten Menschen eine Art Partner waren und einsame Seelen vom Suizid abgehalten haben, wird klar, dass es viele Seiten von KI gibt.

Technische Probleme

Ein weitaus schlimmeres aber bisher unbekanntes Problem liegt im Auswerten von Verhaltensspuren aus dem Internet, bekannt als organic data. Denn sie sind nicht einfach so entstanden, wie die Forscher der sozialen Netzwerke glauben wollen. Die meisten Menschen betreiben in sozialen Medien Selbstdarstellung (impression management). Das ist ganz normal im öffentlichen Raum und in einer bestimmten Alterskohorte sogar wichtig, um sich einer Gruppe zugehörig zu fühlen. Sie wollen Gleichaltrigen imponieren, sie wollen Schwächen und Probleme kaschieren und sie wollen ein bestimmtes ideales Bild von sich zeigen. Oder haben sie hatten einen schwachen Moment und haben vor aller Augen eine Dummheit begangen. All dies wird ausgewertet, ohne dass die Entstehung der Daten in einem präzisen Rahmen kontrolliert wurde.  Das hat Auswirkungen auf die Validität der Aussagen. Impression Managament hat aber nicht nur den Apsekt der Überhöhung des eigenen Selbst zu einem idealen Selbst, dieses Verhalten enthält auch immer einen Anteil Selbstbetrug. Das hat unter Umständen destruktive Folgen oder pathologische Ursachen. Es bedeutet auch, dass die abgeleiteten Analysen nicht nach wissenschaftlichen Standards erhoben und damit weniger verlässlich sind. Denn es sind odt keine der üblichen Verhaltensspuren. Und die Inhalte oder Metadaten verletzen hin und wieder das allgemeine Persönlichkeitsrecht, obwohl die Nutzerinnen und Nutzer die Inhalte selbst publiziert haben. Denn sie enthalten sehr viele Zusatzinformationen, die in den wenigsten Fällen von den Nutzenden beabsichtigt waren oder es für immer sind. Und dabei haben wir noch nicht mal die Problematik angerissen ob sie rein situativ sind oder langfristig repräsentativ für die Persönlichkeit.

Videointerviews mit Bewerbenden können bereits jetzt mit Natural Language Processing auf benutzte Sprache und per Mustererkennung auf body language untersucht werden. Dies wird dann korreliert mit psychologischen Konstrukten und entwirft eine Empfehlung für Personaler. Ist das dann eine gute oder schlechte Kooperation? Für die Personalabteilung erleichtert es vieles. Aber ist es eine Entscheidungsmaschine? Aber Kooperation ist trotz aller Bedenken und Ängste bereits jetzt die Realität. Unsere Aufgabe ist es, den Rahmen und zu setzen.

 

Fazit:

Parker und Grote (2020) weisen daher darauf hin, dass zukünftige Arbeitswelten gleichzeitig besser und schlechter werden durch den Einsatz von softwarebasierter Automation und KI in Organisationen. Aber anders als früher stehen wir nicht länger der Technologie gegenüber: Datenbrillen und Roboter ermöglichen die Zusammenarbeit beider Welten (Mensch und Technik) am selben Platz in der Industrieproduktion: „Mensch und Technik müssen nun als ein interdependentes, gleichberechtigtes Team funktionieren. Es ist diese Veränderung in den Beziehungen zwischen Technologie und Mensch, die wir und andere als besonders bedeutsam und anders als frühere technologische Entwicklungen ansehen.“ Es wird Zeit, dass wir als Gesellschaft reden: Und zwar nicht über versagende Parteien angesichts fehlender Bandbreiten oder Elektrosmog, sondern über Gefühle, Wünsche und Chancen im täglichen Umgang mit kleinen großen Helferlein.

Meehl, P. E. (1954). Clinical versus statistical prediction: A theoretical analysis and a review of the evidence. University of Minnesota Press.

Parker, S. K., & Grote, G. (2020). Automation, algorithms, and beyond: Why work design matters more than ever in a digital world. Applied Psychology, Advance Online Publication.
https://doi.org/10.1111/apps.12241

Petty, Richard E., & Cacioppo, John T. (1986): The Elaboration Likelihood Model Of Persuasion. In Advances in experimental social psychology (Ed. L. Berkowitz), 19, 123 – 205. Academic Press.