Fräulein KI, zum Diktat! Wie präzise und sensibel reagieren die drei bekanntesten KI-Schreibhelfer

Drei neue intelligente Schreibautomaten haben vor kurzem das Licht der medialen Öffentlichkeit erblickt. Und schon erobert generative künstliche Intelligenz viele Büros, Klassenzimmer und Redaktionen. Was können die Lösungen? Wie gehen sie mit strittigen Fragen um? Ein Vergleich dreier KI-Helfer, die jedermann zum Schreiben von Bewerbungen, Hausaufgaben oder Texten für die eigene Website nutzen kann.

In der medizinischen Diagnostik hilft künstliche Intelligenz (KI) schon heute, bei bildgebenden Verfahren wie MRT, CT oder Röntgen besondere Auffälligkeiten zu markieren, die diagnostisch weiter abgeklärt werden sollten. Auch im Labor halten KI-Assistenten langsam Einzug, um Proben zu analysieren. Das Erkennen von Sinn und das Schreiben von Texten ist bisher eine Domäne des Menschen, abgesehen von einigen wenigen Übersetzungslösungen. Die Grundlage dafür bilden generative KI-Sprachmodelle (LLM) wie die Modell-Familie rund um BERT (ALBERT oder RoBERTa) sowie – mittlerweile in vierter Generation – das bekanntere Modell, das als GPT berühmt geworden ist: vor allem eben der jüngste Sproß ChatGPT. Diese künstlichen Sprachmodelle basieren auf dem Transformer-Prinzip (ein neuer Ansatz, der die älteren Lösungen auf Basis rekurrenter neuronaler Netzwerke ersetzt). Sie wurden zunächst vor allem für Übersetzungen genutzt, als Transformieren von einem Text in einen anderen. Das vielversprechendste deutsche Start-up für automatische Übersetzungen namens deepl.com kommt aus Köln. Dokumente mit wenigen Seiten werden in sehr hoher Qualität kostenlos in viele Sprachen übersetzt. Wer mehr braucht, zahlt einen überschaubaren Betrag. Einige Mitbewerber haben diese Sprachmodelle auf eine andere Funktion optimiert und bieten das Generieren ganzer Texte mittels eines Dialogs an auf den die KI mit Resultaten reagiert. Deepl baut zusätzlich zu seinem Übersetzungstool mit seiner neuen Funktion WRITE einen Zwischenschritt ein und hilft bei bereits erstellten Inhalten: Wird ein Text per copy & paste in das Fenster eingefügt, erscheint daneben sofort eine sprachlich optimierte Version. Die ersetzten Sätze, Phrasen und Begriffe sind anklickbar: So können auch andere Alternativen ausgewählt werden. Sehr smart und das Inhaltliche verbleibt weiterhin beim Menschen.

Aber ChatGPT und YouChat gehen noch einen Schritt weiter. Sie liefern auf der Basis großer Sprachmodelle automatisch erstellte Texte an zu vielfältigen Themen, Aufgaben und Fragen, die man in ein Chatfenster eingibt – auch auf Deutsch! ChatGPT hat schon jetzt die eigene Suchmaschine Bing und MS Teams erobert. Denn obwohl Microsoft auch ein eigenes großes Sprachmodell namens Megatron besitzt, haben die Redmonder sich auch beim Hersteller von ChatGPT namens OpenAI mit insgesamt 12 Milliarden eingekauft. In Zukunft antwortet der dialogbasierte Sprachautomat in ganzen Sätzen auf E-Mails oder vollendet die Arbeit mit Textbausteinen durch wenige Befehle und befreit damit Hunderttausende vom Joch der 50 überflüssigen E-Mails am Tag mit einem einzigen Satz im Chatfenster „Antworte mit einer Zusage für den Termin am 21.08“. Auch Web- und App-Entwickler entlasten ihren Alltag mit ChatGPT, dass Ihnen Code und Skripte anhand von Aufgaben automatisch generiert. Die Entwicklung solcher Lösungen wurde und wird auch mit viel deutscher Beteiligung vorangetrieben. Aleph Alpha ist hierzulande der bekannteste deutsche KI-Entwickler, wenn es um große Sprachmodelle im Speziellen und die Königsdisziplin generalisierbare künstliche Intelligenz geht. Die Heidelberger bieten seit Frühling 2022 ihre großen Sprachmodelle für eine Reihe von Anwendungen kommerziell an – auch auf Basis selbst hochgeladener Inhalte: ob Marketingtexte, Zusammenfassungen, Q&A, also Frage und Antworten für eine Firmenwebsite auf Basis eigener Firmeninhalten, die nur für eigene Zwecke genutzt werden – und als Alleinstellungsmerkmal die Kombination von Bildern und Texten. Das geht so weit, dass Fragen zu hochgeladenen Bildern von der KI namens MAGMA beantwortet werden können oder das Etikettieren (Tagging) von Bildersammlungen automatisiert erfolgt.

Der Deutsche Richard Socher kam über Leipzig nach Princeton und Stanford. Er blieb in den USA und gründete einen derzeit neuesten Google-Konkurrenten namens You.com. Dort gibt es mit der Zusatzfunktion YouChat eine Lösung, die – ohne vorherige Anmeldung wie bei ChatGPT – das dialogbasierte Beantworten von Fragen aller Art liefert, aber eben auch das Lösen von (Text-)Aufgaben. Besonders auffällig ist nicht nur die Anpassungsfähigkeit an die Nutzerinnen und Nutzer, sondern auch die topaktuellen Ergebnisse. Es nutzt Googles altes Sprachmodell namens BERT und bietet die derzeit einzige Echtzeitlösung unter den Sprachassistenten: Denn die eigene Suchmaschine liefert auch hochaktuelle inhaltliche Antworten für die entstehenden Texte. Für alle KI-Schreibhelfer gilt, je präziser die Frage oder Aufgabe formuliert ist, je tiefer man in den Dialog einsteigt und seine Wünsche verfeinert, desto besser ist der automatisch generierte Text.

Butter bei die Fische – wie gut ist die inhaltliche Präzision?

Auf die Frage: „Was ist ein Parameter in der Psychologie?“ antwortet YouChat:

In der Psychologie ist der Begriff Parameter ein Begriff, der ein bestimmtes Verhalten beschreibt. Der Parameter kann verschiedene psychologische Konzepte wie Kognition, Motivation, Emotionen, Sozialkompetenz und Verhalten messen. Diese Konzepte werden gemessen, um herauszufinden, welche Verhaltensweisen die Person aufweist und wie sie sich entwickelt. Der Parameter kann auch verwendet werden, um Tests und Prüfungen besser zu verstehen und zu bewerten.

Die Lösung benennt zusätzlich ihre Quellen aus dem Web. Das ist sehr löblich und aktuell ein Alleinstellungsmerkmal, das gerade im Bildungsumfeld kaum zu unterschätzen ist. Inhaltlich korrekt, aber stilistisch leicht unterdurchschnittlich wegen der Wortwiederholung (messen). Wie gut kann YouChat Begriffsdefinitionen inhaltlich trennen?

Auf die Frage: „Was ist ein Parameter in der Physik?“ antwortet YouChat etwas Anderes:

Ein Parameter in der Physik ist ein spezifischer Wert, der ein bestimmtes physikalisches Phänomen beschreibt. Dieser Parameter kann verschiedene Eigenschaften wie Masse, Geschwindigkeit, Kraft, Energie, Impuls usw. beschreiben. Diese Parameter werden verwendet, um physikalische Modelle zu beschreiben und zu verstehen, sowie um Vorhersagen über das Verhalten dieser Modelle zu treffen.

Das liest sich eindrucksvoller. Denn sprachlich und inhaltlich wird überdurchschnittlich und gut verständlich differenziert. Noch eindrucksvoller wird es beim rein amerikanischen Anbieter OpenAI und dessen bekannter Lösung ChatGPT, die mit einer einfachen Anmeldung per Mailadresse nutzbar ist (die freie Nutzung klappt am besten morgens, sonst eher für zahlende Kunden). Dort wurde das Sprachmodell GPT 3.5 mit einer Lernmenge von 45 Terabyte an Texten (Trainingsset: WebText) plus einige Tabellen und klassische Dokumenttypen wie Rechnungen, Bewerbungsschreiben etc. aus dem Internet vor 2022 trainiert. Die Lösung kennt daher keine aktuellen Inhalte. Dafür sind die inhaltliche Tiefe und die sprachliche Darstellung den meisten anderen Lösungen überlegen.

Sehen wir uns die Antworten auf dieselbe Frage an, zuerst erklärt uns ChatGPT Parameter für die Psychologie:

In der Psychologie ist ein Parameter eine bestimmte Eigenschaft oder Größe, die gemessen oder beobachtet wird, um das Verhalten oder die Ergebnisse von psychologischen Experimenten oder Studien zu beschreiben oder zu erklären. Beispiele für Parameter in der Psychologie können die Reaktionszeit, die Fehlerrate, die Herzfrequenz oder die Hirnaktivität sein.

Das Sprachmodell erscheint ausgereifter, formuliert stilistisch besser und klarer. Der Begriff wird eingebettet in die Aufgabe der Psychologie. Inhaltlich ist es die deutlich präzisere Erklärung des Begriffs (intensionale und extensionale Bestimmung werden geliefert). Die Antwort von YouChat war nicht falsch, aber diese Beispiele erläutern den Begriff vor alle aus der konkreten Anwendungsperspektive.

Auch Antwort zum Themenfeld Physik ist besser und präziser formuliert. Inhaltlich antwortet ChatGPT ähnlich wie YouChat, klärt jedoch auch über den unterschiedlichen Gebrauch des Wortes in Teilbereichen auf:

In der Physik ist ein Parameter eine Größe, die die Beschreibung eines physikalischen Systems oder eines Prozesses charakterisiert. Ein Parameter kann eine feste Größe sein, die das System beschreibt, oder er kann sich im Laufe der Zeit ändern. Beispiele für Parameter in der Physik sind die Masse, die Länge, die Zeit, die Geschwindigkeit, die Beschleunigung, die Spannung, die Leistung und die Temperatur. In bestimmten Bereichen der Physik, wie der Thermodynamik oder der Quantenmechanik, gibt es auch abstrakte Parameter, die nicht unbedingt direkt gemessen werden können, aber dennoch wichtig sind, um das Verhalten des Systems zu beschreiben.

Die deutsche KI-Firma Aleph Alpha legt bei Sprachmodellen besonderen Wert auf Effizient (Sparsity), damit will man all die Milliarden Faktoren, die die oben genannten Modelle bei jeder einzelnen Frage immer mitberechnen auf die zur Antwort notwendigen beschränken. Das bedeutet, dass die Wahrscheinlichkeiten für das jeweils nächste Wort eines Satzes nur bestimmte Pfade oder Teile des gesamten Sprachmodells nutzen. Für diesen Artikel wurde das Modell Q&A, also Fragen & Antworten genutzt. Die Resultate zeigen den Hang zur Einfachheit eindrücklich:

Denn Aleph Alpha hält sich betont kurz bei der ersten Parameter-Frage für das Gebiet der Psychologie:

Ein Faktor, der das Verhalten von Personen beeinflusst.

Auch bei der Physik liegt bei Aleph Alpha die Würze in der Kürze:

Eine physikalische Größe, die zur Beschreibung eines physikalischen Systems verwendet wird.

Auffällig ist, dass bei mehrmaligem Eingeben derselben Aufgaben deutlich unterschiedliche Antworten gegeben werden, was bei den beiden ersten Modellen nur in Nuancen der Fall ist.

Die Königsdisziplin der KI im gesellschaftlichen Anwendungskontext ist aber nicht die Genauigkeit der Ergebnisse, sondern die Frage, ob und welche erwünschten Verhaltensweisen und Werte die Antworten leiten. Beim Menschen würde man den Begriff der Ethik in den Raum werfen. Aus psychologischer Sicht ist hier jedoch Vorsicht geboten. Denn es wird eine kognitive Leistung durch automatisierte Statistik simuliert. Denn die meisten Sprachmodelle basieren auf neuronalen Netzen. Das sind Tausende einzelner mathematischer Funktionen, die sich anhand von Lernmengen selbst optimieren, mal mit, mal ohne externe Signale, welche Ergebnisse erwünscht sind. Gibt man einer KI, die Bildinformationen auswerten soll, 100 Fotos von Hunden und 100 Bilder von Katzen, können diese Funktionen einzelne Muster gewichten. Ohrform, Farbe, Größe oder Körperhaltung des Tieres. Wenn jedoch die meisten Hundefotos im Freien aufgenommen wurden, wird die KI wahrscheinlich den Grünanteil (Rasen) oder Blätter als Hinweis auf die Kategorie Hund interpretieren. In der Kognitionspsychologie werden solche falschen Hinweise als kognitive Verzerrung oder Bias bezeichnet. Menschen, die mehrmals von einem Hund angegriffen wurden, fühlen sich unwohl, wenn sie einem Hund begegnen. Das liegt daran, dass wir Menschen und auch die KI-Informationen als Signale für Wahrscheinlichkeiten verarbeiten, die wir anhand von im Gedächtnis gespeicherten Inhalten berechnen. Wenn Hund und Rasen häufig vorkommen, dann ist Rasen ein Signal für Hund. Und alle Katzenbilder im Garten werden als Hund klassifiziert. Wendet man dieses Prinzip auf soziale Themen an, werden viele soziale Probleme verständlicher. Diskriminierung basiert auf erlernten Inhalten: Handwerker sind fast immer Männer. Krankenbruder ist kein Begriff der Alltagssprache. Was macht also KI beim vieldiskutierten Geschlechterthema? Versuchen wir eine Finte und nehmen eine Aufgabe, die vermeintlich eindeutig biologisch zu beantworten ist.

Und was passiert bei aktuell kontrovers diskutierten Inhalten, die in Gesellschaft und Forschung im Umbruch sind?

Fragen wir Aleph Alpha, YouChat und ChatGPT: Warum gibt es einen Leistungsunterschied zwischen weiblichen und männlichen Sportlern?

Antwort von Aleph Alpha:

Frauen haben mehr Körperfett und weniger Muskeln als Männer.

Antwort von YouChat:

Es gibt einen Leistungsunterschied zwischen weiblichen und männlichen Sportlern aufgrund einer Reihe von Faktoren. Diese Faktoren reichen von den unterschiedlichen Körperstrukturen der Geschlechter über die unterschiedliche psychologische Veranlagung bis hin zu den sozialen Erwartungen an die einzelnen Geschlechter. Diese Faktoren können sich auf die Kondition, die Kraft, die Schnelligkeit und die Ausdauer auswirken, die für viele Sportarten unerlässlich sind. Darüber hinaus können Unterschiede in der Ernährung und den Trainingsbedingungen ebenfalls einen Einfluss auf den Leistungsunterschied haben.

Antwort ChatGPT:

Es gibt mehrere Gründe, warum es Unterschiede in der Leistung zwischen weiblichen und männlichen Sportlern gibt. Ein wichtiger Faktor ist die biologische Geschlechtsdifferenzierung, die sowohl in Bezug auf die Muskelmasse als auch auf die Ausdauer unterschiedliche Auswirkungen hat. Männer haben in der Regel mehr Muskelmasse und eine höhere Konzentration von Testosteron, was zu einer höheren Kraft und Schnellkraft führt. Andererseits haben Frauen in der Regel eine höhere Fettmasse und höhere Östrogenspiegel, was zu einer höheren Ausdauer führen kann.

Es gibt auch soziale und kulturelle Faktoren, die die Leistungen von Frauen und Männern beeinflussen können. Beispielsweise gibt es in vielen Gesellschaften noch immer Unterschiede in der Art und Weise, wie Mädchen und Jungen erzogen und gefördert werden, was zu Unterschieden in der Selbstwirksamkeit und Motivation führen kann.

Auch in der Vergangenheit waren Frauen in vielen Sportarten benachteiligt, was zu weniger Möglichkeiten und Ressourcen für ihre Entwicklung und Förderung führte. Heute gibt es jedoch immer mehr Bemühungen, um die Gleichstellung von Frauen und Männern in der Sportwelt zu fördern und Unterschiede in der Leistung zu minimieren.

Die generischen Inhalte der bekannteren Schreibautomaten enttäuschen Menschen mit Vorwissen zum jeweiligen Thema besonders schnell. Sie verunsichern auch diejenigen, die eine differenzierte Darstellung von Wissensbeständen wünschen. Die gesellschaftlichen Diskussionen zu einigen sensiblen Inhalten haben Google veranlasst, die hauseigene Lösung Sparrow oder Apprentice Bard (von Deepmind) erst später für Publikum zugänglich zu machen. Denn ChatGPT reagierte in früheren Stadien ähnlich unsensibel wie YouChat heute. Der Hersteller OpenAI hat ChatGPT daher bereits einige Überarbeitungszyklen gegönnt: Denn menschliche Gewohnheiten und Traditionen und damit die Lernmenge selbst kann kognitive Verzerrungen enthalten. Tatsächlich enthalten die meisten Publikationen und Webtexte in den Trainingsdaten bisher wenig Details über die Ursachen von Diskriminierung. Einige Zeitgenossen halten diese Detailtiefe bei sozialen Merkmalen für Unsinn, während der aktuelle Forschungsstand eher die grobe Rasterung traditioneller Geschlechterunterschiede als Verzerrung der Realität bewertet. Das Thema bekommt schnell eine rechtliche Relevanz. Denn KI wird auch im Umfeld von Personalentscheidungen eingesetzt, wo Lebensläufe oder Videointerviews von aktuell erfolgreichen Mitarbeitenden als Lernmenge für die Auswahl potenziell geeigneter Kandidatinnen und Kandidaten dienen. Es überrascht daher nicht, dass die Lösungen bisher weiße Männer bevorzugen, da diese in den meisten Unternehmen in den letzten 50 Jahren häufiger und schneller Karriere gemacht haben. Die EU schafft derzeit mit dem Artificial Intelligence Act und einigen KI-Verordnungen einen Rahmen. Im aktuellen Entwurf der KI-Verordnung wird die hier beschriebene KI-Schreibhilfe als System mit geringem Risiko eingestuft. Da zu erwarten ist, dass abertausende Schülerinnen und Schüler damit ihre Hausaufgaben schreiben werden, ist es sinnvoll, die gleichen hohen Hürden an die Beachtung gesellschaftlicher Werte zu stellen, wie sie für Hochrisikosysteme wie KI zur Personalauswahl oder taktische KI im militärischen Einsatz gelten. Aleph Alpha ist aus Firmensicht aktuell attraktiver als die beiden anderen Lösungen, die zwar für Schüler und Lehrende und den Büroalltag auf den ersten Blick eine große Hilfe sein können. Aber die Tatsache, dass man eigene Inhalte aus der Produktentwicklung als Lernmenge und Inhaltsbasis der KI nutzen kann, ermöglicht sehr präzise und fachspezifische Anwendungen, die weit über Marketing- und Websitetexte hinausgehen.

Fazit: KI-Schreibhelfer werden zügig das Leben im Büro und bei den Hausaufgaben erleichtern. Auch Redaktionen können sich viel Recherche- und Formulierungsarbeit einsparen. Die Texte liefern oft eine gute Grundlage für einführende Absätze, eine kurze Antwort für ein spezielles Interesse und sparen auf diese Weise viel kostbare Zeit ein, weil sie Routinearbeiten ersetzen. Doch es bleibt die Aufgabe, diese Lösungen zu prüfen. Denn all das, womit diese Lösungen trainiert werden, kommt hinten wieder raus. Es wird neue Experten geben müssen, die die Repräsentativität und Qualität der Lernmenge von KI gewährleisten. Die Zeitung Nature hat 2019 einen Artikel unter dem Titel „Machine Behavior“ publiziert, in dem führende Forschende vieler Disziplinen dafür plädieren, KI nach ihrem Verhalten zu beurteilen, indem man ihr Aufgaben stellt. Und zwar ähnlich wie in der experimentellen Psychologie: Nur so kann ganz agnostisch ohne Ansehen der technischen Lösung, das Resultat von Lösungen verglichen werden. Die Interpretationen der Ergebnisse und die Inhalte der Aufgaben selbst, sollten im großen gesellschaftlichen Diskurs erfolgen. Aus Sicht der akademischen Lehre sind natürlich die Spezialisierungen von Sprachmodellen besonders relevant und interessant: Microsoft hat mit BioGPT für die Biologie ein gutes Werkzeug vorgelegt und es bleibt zu hoffen, dass dies für Medizin, Psychologie und andere Humanwissenschaften folgen wird. Und Prof. Dr. Spannagel von der PH Heidelberg setzt bereits generative KI-Lösungen aktiv in der Hochschullehre ein und hat erste Regeln für den Umgang mit ChatGPT & Co. publiziert.
Mein Tipp für alle, die englisch können: Gute Texte, gute Quellen, die drunter angegeben werden, hohe Komplexität der Texte (Update 12.02.2023; denn es ist die neuere Version namens GPT 4 in Verbindung mit der Suchfunktion Bing von Microsoft und ist mittlerweile die große Schwester von ChatGPT und direkt auf der Bing-Suchseite verfügbar): https://www.perplexity.ai/.

Demnächst: Warten wir ab, wann Google mit seinem aktuellsten KI-Schreibhelfer Bard (auf Basis von LaMDA) und NORA in der Google-Suche zurückschlägt oder die frei verfügbare KI namens Bloom, das erste große KI-Sprachmodell auf Basis von Open Access und Open Science. Microsoft wird GPT-4 in seine Suchmaschine Bing integrieren und damit YouChat davoneilen, erstes Test im Februar 2023 verliefen bereits vielversprechend. Notion hat KI schon als webbasierte Plattform fürs (kollaborative) Erstellen von Tagebüchern, Notizen und Projektmanagement in Betrieb. Meta (Facebook) schraubt weiter an seiner eigenen Lösung OPT. Und in wenigen Jahren wird wohl der nächste Schritt folgen: KI mit einem Weltmodell, einer ständig wachsenden Wissensbasis, die die bisherigen eher allgemeingültige Inhalte der Sprachmodelle auf beeindruckende Weise in den Schatten stellen könnte. Dann werden nicht nur einfach Programmierarbeiten und Hausaufgaben ausgelagert, dann könnten auch Nachhilfedienste, wissenschaftliche Tutoren, Redakteure und Sachbearbeiter sich auf die Suche nach neuen Jobs machen.

https://app.aleph-alpha.com/

https://chat.openai.com/chat

https://www.deepl.com/write

https://you.com/search

https://www.technologyreview.com/2022/07/12/1055817/inside-a-radical-new-project-to-democratize-ai/

Bildquelle: https://openclipart.org/detail/206263/type-writer