Produktivität messen von Angestellten, die mit generativer künstlicher Intelligenz arbeiten – Forschung (miss)verstehen

Roboter mit Fragezeichen
Quelle: DALL-E

Am 7. März 2023 hat Josh Bersin, ein selbst ernannter HR-Influencer, ein vorläufiges Forschungspaper von MIT-Doktoranden zum Thema Produktivität von studierten Angestellten zusammengefasst: Es geht um Produktivitätssteigerungen durch generative KI, in diesem Fall ChatGPT, bei alltäglichen Arbeiten für Leute, die beruflich genau solche Texte erstellen müssen. Das Paper hat noch nicht den peer-review-Prozess durchlaufen, ist also quasi noch ohne Verbesserungen von erfahrenen Forschenden. Einen Tag später hat dann der selbst ernannte Netzökonom Holger Schmidt eine leicht geänderte deutsche Version dieses Blogposts unter seinem Namen veröffentlicht, ohne auf Bershin zu verweisen. Beide Autoren haben die Studie entweder nicht gelesen oder nicht verstanden. Sie enthält grundlegende Fehler: der schlimmste ist die Art wie untersucht wurde! Das kommt davon, wenn unerfahrene Leser Preprints in die reichweitengierigen Hände bekommen (english version below)

Es ist eine Studie, in der Angestellte mit Hochschulabschluss wie Werbetexter, Fundraiser, Berater, Datenanalysten, Personalverantwortliche und Manager eigene Texte verfassen sollen. Diese Texte umfassen: Pressemeldungen, Kurzberichte, Analyseberichte und heikle E-Mails. Die ersten drei Arten machen den Löwenanteil der Lernmenge von GPT aus, weil das Web voll davon ist. Und das Sprachmodell namens GPT wurde mit 45 Terabyte Webdaten trainiert. Bitte behalten Sie das im Hinterkopf! Die Qualität der Texte der Probanden, also deren Aufgabenlösungen, wurde (verblindet) bewertet von erfahrenen Fachleuten, die in genau den Berufen arbeiten, wo solche Texte als Dienstleistung verkauft werden. Das bedeutet, sie haben zu großen Teilen genau die Inhalte selbst produziert, mit denen das Sprachmodell „klug“ wurde! Die Bewertenden werden um Sorgfalt gebeten. Sie sollten die Arbeit so behandeln, als ob sie in einer normalen Arbeitsumgebung anzutreffen wäre. Die Bewerter vergaben eine Gesamtnote sowie getrennte Noten für die Qualität der Texte, die Qualität des Inhalts und die Originalität. Jede Arbeit wird von drei Bewertern gesehen, wobei die durchschnittliche Korrelation zwischen den Bewertern 0,44 beträgt. Die Autoren der Studie nennen diesen Wert cross-evaluator correlation. Das ist ein Begriff, den Google exakt einmal auswirft, da er nur in diesem einen Paper erscheint! Also ein Fantasiewert! Der Wert könnte die Reliabilität anzeigen, die als Inter-Rater-Reliability (IRR) üblicherweise mit dem zugehörigen Verfahren angegeben wird ( Cohen’s kappa, Fleiss’s kappa, ICCs). Wer mit R arbeitet kennt das Paket irr. Wenn diese Angabe fehlt, ist nicht genau erkennbar, wie präzise die abhängige Variable  (Qualität der Arbeit), also das Ziel der Untersuchung überhaupt gemessen wurde (Messgenauigkeit). Im Grund ist aus meiner Sicht als akademischer Lektor einer Abschlussarbeit schon die Arbeit zuende: Die Autoren haben die wesentliche Variable für das Messen von Produktivität messtechnisch nicht präzise abgesichert. Nehmen wir also die einfachste Form der Korrelation an, das Inter-Rater-Agreement (IRA). Nach LeBreton & Senter (2008) wäre dann 0,44 eine schwache Übereinstimmung zwischen den Experten und damit ein eher untaugliches, weil ungenaues Mittel für die Qualitätsmessung(oft wird es durch eine höhere Anzahl der Beurteiler optimiert). Der Bericht der statistischen Resultate ist atemberaubend, die Standardabweichung und bspw. den t-Wert muss man sich selbst aus den Konfidenzintervallen berechnen, um überhaupt die Konsistenz der Werte zu checken (Boxplots oder Standardfehler kennt man offenbar gar nicht). Leider gibt es hier auch noch das Problem der data leakage. Denn die Bewertenden haben alle beruflich das Internet vollgeschrieben und sind damit Teil der Traingsdaten für ChatGPT geworden. Sie bewerten also die Ergebnisse der Probanden, die mit ChatGPT gearbeitet haben, die aber zum Teil auf ihren eigenen ehemaligen Texten beruhen. Als ob all das nicht reichen würde, denn es wurde auch die Zeit bis zum fertigen Text gemessen als abhängige Variable!

Die Kontrollgruppe, die keine ist

Es wurde der Anschein einer kontrollierten Studie erweckt, aber nicht realisiert: An sich erscheint das Forschungsdesign sinnvoll, denn es wird eine Treatmentgruppe (diese Teilnehmenden durften ChatGPT nutzen, ab der zweiten Aufgabe) verglichen mit einer „Kontroll“-Gruppe, die dieselben Aufgaben bekam. Aber sie sollten statt mit einer normalen Textverarbeitung mit einem LaTex-Editor (Overleaf) online arbeiten. Sie mussten zusätzlich auch die Inhalte selbst googlen. Wären die Aufgaben mit hochaktuellen Themen gewesen, wäre das Ergebnis also völlig anders. Die ChatGPT-Gruppe wäre immer noch schneller gewesen, aber die „Zeitvorteil“ wäre ein Inhaltsnachteil geworden. Schön wäre daher eine Aufgabe zu einem Thema nach 2021 gewesen? Denn die Lernmenge von ChatGPT enthält nur Webinhalte bis 2021. Aber Schwamm drüber…wer beweisen will, dass es besser ist mit ChatGPT kann das einfach mit dem Forschungsdesign herbeiführen. LaTex ist an sich hilfreich in der Wissenschaft, damit werden Texte mithilfe einer besonderen Auszeichnungssprache (ähnlich markdown) layoutet. Aus ihrem Studium kannten wahrscheinlich nur einige Datenanalysten LaTex vorher. Aber Marketingleute und Fundraiser bei Stiftungen? Im Büroalltag nutzt das keiner. Es hemmt den Schreibfluss und ist bei kreativen Schreibprozessen hinderlich, denn es kostet Zeit ein ansehnliches Dokument damit zu bauen. Man wird das Vorwissen in der „Kontrollgruppe“ leider nie erfahren. Anders die Treatmentgruppe, bei denen hatten bereits 30% schon vor der Untersuchung mit ChatGPT gearbeitet. Vor allem hinsichtlich der Zeit ist ein zusätzliches Layoutwerkzeug eine andere „Hilfe“ als KI, um sich mit neuen Inhalten inspirieren lassen um die Aufgaben inhaltlich auszufüllen. Vor allem aber kann man das dialogische Verfahren eines Chatbots nutzen, also das Nachfragen auf erste Resultate KI, um inhaltlich das Thema zu erweitern und vertiefen, falls man nicht drin steckt. Aber sind fertige Sätze mit gesuchtem Inhalt besser als die Google-Links, die man selbst qualifizieren muss? sure thing! Im übertragenen Sinn hat man also verglichen, wie schnell Leute vom ersten in den siebten Stock kommen, wenn sie dabei 10kg schwere Einkaufstüten tragen müssen, wer den niedrigeren Puls hatte, hat gewonnen! Dabei durfte eine Gruppe die Rolltreppen benutzen und die andere Gruppe statt der Rolltreppen nur die Treppe und hatten zusätzlich kleinere Einkaufstüten, in die weniger passt und die schneller reißen. Die Kontrollbedingung war also gar keine. Ein kausaler Zusammenhang ist nicht nachweisbar, da der Netto-Effekt keiner ist. Die Unterschied basieren mindestens zu einem Teil darauf, dass die Kontrollgruppe mit einer künstlich verlangsamenden Zusatzbedingung belastet wurde. Außerdem bestand Vorwissen im Umgang mit dem Tool. Wollte man einen Effekt auf ChatGPT zurückführen, müsste man ansonsten gleiche Bedingungen hinsichtlich kognitiver Belastung beim Texterstellen schaffen.

Fazit: Insgesamt ist sowohl das Forschungsdesign als auch die Auswertung der Studierenden ein Witz. Aber die beiden Blog-Autoren in den USA und Deutschland haben sich offenbar vom Kürzel der Alma Mater (MIT) blenden lassen und konnten fortan nicht mehr richtig lesen. Die Messung der Zeit für das Erfüllen der Aufgaben ist ein Affront bei den Gruppenbedingungen und angesichts der Tatsache, dass die Kontrollgruppe durch LaTex auch noch künstlich gebremst wurde, grenzt in meiner Welt an etwas, das schlimmer als QRP-Methoden ist: Das Herstellen erwünschter Ergebnisse durch das Forschungsdesign selbst. Hier ist nicht die statistische Auswertung das Ziel mangelnder wissenschaftlicher Redlichkeit, sondern die Untersuchung selbst.

English Version:
On march 7th 2023, Josh Bersin, a self-proclaimed HR influencer, summarised a preliminary research paper by MIT PhD students on the topic of white collar worker productivity: It’s about productivity gains from generative AI, in this case ChatGPT, on day-to-day tasks for people who routinely create texts. The paper has not yet gone through the peer-review process, so it is effectively without improvements from experienced researchers. A day later, self-proclaimed network economist Holger Schmidt published a slightly modified German version of this blog post under his own name, without referencing Bershin. Both authors have either not read or not understood the study itself. It contains fundamental errors: the worst is the way it was planned, conducted and reported!

It is a study in which employees such as copywriters, grantwriters, consultants, data analysts, hr professionals and managers, who had been in college, are asked to write their own texts. These texts include press releases, news briefs, analysis reports and dodgy emails. The first three types make up the lion’s share of GPT learning because the web is full of them. And the language model called GPT has been trained on 45 terabytes of web data. Please bear this in mind! The quality of the test subjects‘ texts, i.e. their task solutions, was assessed (blinded) by experienced professionals working in the very professions where such texts are sold as a service. This means that to a large extent they produced the very content that made the language model „intelligent“! Evaluators should be careful. They should treat the work as they would in a normal working environment. The assessors will give an overall mark and separate marks for quality of writing, quality of content and originality. Each paper is seen by three raters, with an average correlation between the raters of 0.44. The authors of the study call this the cross-rater correlation. This is a term that Google throws out exactly once, because it only appears in this one paper! So it’s a fantasy score! The value could indicate reliability, which is usually given as inter-rater reliability (IRR) with the associated procedure (Cohen’s kappa, Fleiss’s kappa, ICCs). If you work with R, you know the irr package.

In the absence of this specification, it is not possible to see exactly how precisely the dependent variable (quality of the thesis), i.e. the objective of the research, has been measured at all (accuracy of measurement). Basically, from my point of view as an academic editor of a thesis, the work is already done: The authors have not secured the essential variable for the measurement of productivity. So let’s take the simplest form of correlation, the inter-rater agreement (IRA). According to LeBreton & Senter (2008), 0.44 would then be a weak agreement between experts and thus a rather inappropriate, because imprecise, means of measuring quality (often optimised by a higher number of raters). The report of the statistical results is breathtaking, the standard deviation and e.g. the t-value have to be calculated by oneself from the confidence intervals to check the consistency of the values (box plots or standard errors are obviously not known). Unfortunately, there is also the problem of data leakage. Because the text expert raters have all written professionally on the internet before and have become part of the training data for ChatGPT. So they evaluate the results of the subjects who have worked with ChatGPT, but their results are partly based on their own former texts: their content was part of GPT’s training data. But it gets even worse, because the time to finish the text was also measured as a dependent variable!

Control group without control

The appearance of a controlled study was created but not realised: In itself, the research design seems reasonable because a treatment group (these participants were allowed to use ChatGPT from the second task onwards) is compared with a „control“ group which was given the same tasks. However, they were asked to work online with a LaTex editor (Overleaf) instead of a normal word processor. Of course, they also had to google the content themselves. It would have been nice to have a task on a topic after 2021? Because the ChatGPT learning set only contains web content until 2021. But no hard feelings… fits somehow. LaTex itself is useful in science, it is used to layout text using a special markup language (similar to markdown). From their studies, probably only some data analysts knew LaTex before. But marketing people and grant writers? None of them use it in everyday office life. It inhibits the flow of writing and is a hindrance to creative writing processes because it takes time to produce a respectable document. Unfortunately, we will never know the prior knowledge of the „control group“. The treatment group was different, 30% of them had already worked with ChatGPT before the study. Especially in terms of time, an additional layout tool is a different „help“ than AI to get inspired with new content to complete the tasks. Above all, however, the dialogue approach of a chatbot, i.e. after asking the AI for initial results, can be used to expand and deepen the content of a topic with which one is not familiar. But are ready-made sentences on new topics with preconfigured content in it better than searching Google for good sources that you have to qualify for yourself? of course! So they compared how fast people could get from the first to the seventh floor, carrying 20 pounds heavy shopping bags, and the one with the lower heart rate won! One group was allowed to use the escalators, and the other group should only use stairs, and they also had smaller shopping bags that fit less easily and tore more quickly. So the control condition was nothing at all. A causal relationship cannot be established because the net effect is none. The difference is at least partly due to the fact that the control group was given an artificially slowing additional condition. There was also prior knowledge of how to use the tool. If one wanted to attribute an effect to ChatGPT, one would have to create the same conditions in terms of cognitive load during texting.

Overall, both the research design and the student evaluation are kind of a joke. But the two authors in the US and Germany were apparently blinded by the acronym of their alma mater (MIT) and could not read properly. Measuring the time to complete the tasks is an affront, given that the control group was artificially slowed down by LaTex. In my world, it borders on something worse than QRPs: producing desired results by the research design itself. Here the problem is not the statistics or its methods or evaluation that is the target of bad studies, it is even more lacking scientific probity by the research itself.

 

Quelle:

Ursprungspaper:

https://economics.mit.edu/sites/default/files/inline-files/Noy_Zhang_1.pdf

LeBreton, J. M., & Senter, J. L. (2008). Answers to 20 questions about interrater reliability and interrater agreement. Organizational Research Methods, 11(4), 815–852. https://doi.org/10.1177/1094428106296642

Blogartikel:

https://joshbersin.com/2023/03/new-mit-research-shows-spectacular-increase-in-white-collar-productivity-from-chatgpt/

ChatGPT erhöht Produktivität der Wissensarbeiter um 35 Prozent