Der rasante Fortschritt der generativen KI hat die Art und Weise verändert, wie Menschen schreiben. KI ist mittlerweile in vielen alltäglichen Schreibwerkzeugen integriert und hilft Nutzern, Ideen zu generieren, Inhalte zu entwerfen, Sätze zu überarbeiten und ihr Schreiben zu verbessern. Infolgedessen wird das Schreiben zunehmend zu einem kollaborativen Prozess zwischen Menschen und KI. Für Studierende, Lehrkräfte und Testorganisationen wirft dies eine grundlegende Frage auf: Wenn KI Teil des Schreibprozesses wird, welche wesentlichen Schreibfähigkeiten sollten wir schätzen und wie sollten wir sie messen?
Dieser Wandel stellt auch bestehende automatisierte Bewertungssysteme infrage, die weitgehend davon ausgingen, dass Essays unabhängig von Menschen verfasst wurden. Funktionen wie Grammatik, Gebrauch, Mechanik und Organisation werden seit langem als Indikatoren für die Schreibqualität verwendet und sind ein zentraler Bestandteil vieler automatisierter Bewertungsmodelle. Aber wenn KI diese Aspekte des Schreibens mit minimalem Aufwand verbessern kann, muss ihre Rolle in der automatisierten Bewertung überdacht werden. Diese Herausforderung ist besonders relevant für unbeaufsichtigte Schreibaufgaben, bei denen der Einsatz von KI schwer zu kontrollieren ist, und nicht für formale beaufsichtigte Schreibtests, bei denen der Zugang zu solchen Werkzeugen eingeschränkt sein kann.
Ein kürzlich erschienener Artikel mit dem Titel "KI-generierte Essays: Eigenschaften und Implikationen für automatisierte Bewertung und akademische Integrität", veröffentlicht in Educational Measurement: Issues and Practice (EM:IP), untersucht dieses Thema durch die Linse des GRE Analytical Writing Assessment. Die Studie, die sich aus einem ETS-Sommerpraktikumsprojekt entwickelte, verglich KI-generierte Essays mit von Menschen verfassten Essays und bewertete sie sowohl mit geschulten menschlichen Bewertern als auch mit dem automatisierten Bewertungs-Engine von ETS. Die Ergebnisse offenbaren wichtige Unterschiede zwischen KI-generierten und von Menschen verfassten Essays und bieten nützliche Einblicke für die nächste Generation automatisierter Bewertungssysteme.
Die automatisierte Wertung steht vor einer neuen Herausforderung
Die automatisierte Bewertung spielt eine wichtige Rolle bei groß angelegten Schreibbewertungen. Diese Systeme stützen sich oft auf Sprachmerkmale wie Grammatik, Gebrauch, Mechanik, Stil, Organisation und Wortwahl, da sie effizient mit NLP-Techniken berechnet werden können. Obwohl diese Merkmale Teil des Konstrukts vieler Sprachtests sind, dienen sie bei Aufgaben, die sich stärker auf Argumentation und Argumentation konzentrieren, oft als indirekte Indikatoren für eine tiefere Schreibqualität und nicht als direkter Beweis für die Qualität von Ideen, Belegen oder Argumentationen.
Zum Beispiel zeigt ein Schüler, der mit korrekter Grammatik, klarer Organisation und gut ausgearbeiteten Absätzen schreibt, oft auch stärkere Argumentations- und Kommunikationsfähigkeiten.
Generative KI verändert diese Beziehung. KI-generierte Aufsätze können bei sprachbezogenen Merkmalen hohe Werte erzielen, da die Technologie ausgefeilte, gut strukturierte Texte liefern kann. Starke Sprachmerkmale von KI-generierten Aufsätzen gehen jedoch nicht immer mit starkem Argument, sinnvoller Analyse oder originellem Denken einher.
Infolgedessen werden einige der Merkmale, die traditionell gute Indikatoren für die Schreibqualität waren, weniger zuverlässig, wenn Essays von KI erstellt oder stark unterstützt werden.
Was die Studie ergab
Die Studie ergab zwei wichtige Erkenntnisse.
Erstens schnitten KI-generierte Essays konsequent besser ab als von Menschen verfasste Essays zu sprachbezogenen Merkmalen, selbst wenn die zugrundeliegenden Ideen oder Argumente relativ begrenzt waren. Zweitens vergab e-Rater® KI-generierten Essays höhere Punktzahlen als menschliche Gutachter.
Dieser Unterschied spiegelt wider, wie automatisierte Bewertungssysteme traditionell entwickelt wurden. E-Rater® wurde mit von Menschen verfassten Essays trainiert, wobei der Gebrauch starker Sprache typischerweise mit einem insgesamt stärkeren Schreiben assoziiert wird. Daher spielen diese Merkmale eine wichtige Rolle im Bewertungsprozess.
KI-generierte Essays können bei diesen sprachbezogenen Merkmalen äußerst gut abschneiden, ohne dabei starke analytische Argumentation, den Einsatz von Beweisen und die Argumenttiefe zu besitzen. Wenn der E-Gutachter® diesen Merkmalen bei der Bewertung von KI-generierten Aufsätzen dieselben Gewichtungen zuweist, wird die Punktzahl erhöht.
Menschliche Bewerter hingegen bewerten nicht nur die Sprachqualität, sondern auch die Qualität des Arguments, die Nutzung von Evidenz und die Entwicklung von Ideen, entsprechend der Bewertungsrubrik. Das erklärt, warum menschliche Bewerter KI-generierte Aufsätze nicht so hoch bewertet haben wie das automatisierte System.
Wichtig ist, dass diese Ergebnisse nicht darauf hindeuten, dass E-Rater® fehlerhaft ist. Vielmehr zeigen sie, wie generative KI einige der Annahmen verändert hat, auf denen bestehende automatisierte Bewertungssysteme aufgebaut wurden.
Was braucht die automatisierte Bewertung als Nächstes
Automatisierte Bewertungssysteme tun mehr als nur Punktzahlen zu vergeben. Bevor die Bewertung beginnt, prüfen sie in der Regel, ob eine Antwort überhaupt für die Bewertung geeignet ist. Traditionell konzentrierte sich dieser Schritt darauf, Aufsätze zu markieren, die themenfremd, ungewöhnlich kurz oder lang, repetitiv, auswendig gelernt oder anderweitig nicht für die Bewertung geeignet sind.
Da KI-unterstütztes Schreiben immer häufiger wird, muss dieser anfängliche Screening-Prozess ausgeweitet werden, um KI-generierte oder stark KI-unterstützte Reaktionen zu identifizieren, wenn der Einsatz von KI nicht erlaubt ist. Tatsächlich zeigen die Ergebnisse des EM:IP-Artikels, dass Essays, die von einer Vielzahl generativer KI-Modelle erstellt werden, mit hoher Genauigkeit erkannt werden können. Allerdings müssen Erkennungsmethoden kontinuierlich aktualisiert werden, sobald neue KI-Modelle entstehen.
Gleichzeitig müssen automatisierte Bewertungssysteme überdenken, wie viel Wert sie auf verschiedene Aspekte des Schreibens legen. Oberflächensprachliche Merkmale sind möglicherweise weniger nützliche Indikatoren für das tiefere Denken des Schreibens, wenn KI sie mit minimalem Aufwand verbessern kann.
Zukünftige Systeme sollten stärker Wert auf tiefere Schreibqualitäten legen, wie den effektiven Einsatz von Beweisen, Qualität des Arguments, Analysetiefe und Argumentstärke.
Die Zukunft der Schreibbewertung
KI-unterstütztes Schreiben ist gekommen, um zu bleiben. Da diese Werkzeuge Teil des alltäglichen Schreibens werden, ist die zentrale Frage nicht mehr, wie man ihre Nutzung erkennt oder verhindert, sondern wie man neu definiert, was wir vom Schreiben in dieser neuen Umgebung messen wollen.
Die Beantwortung dieser Frage erfordert eine Einigung in mehreren wichtigen Punkten, darunter welches Maß an eigenständiger Schreibfähigkeit erwartet wird, welche Arten von KI-Unterstützung geeignet sind und welche Belege zur Bewertung der Schreibqualität herangezogen werden sollten. Automatisierte Bewertungssysteme müssen sich parallel zu diesem umfassenderen Gespräch weiterentwickeln, damit sie weiterhin gültige und bedeutungsvolle Urteile über das Schreiben im Zeitalter der KI unterstützen.