Jeder kann einen Test bauen, besonders jetzt, wo KI alles leisten kann. Die schwierigere Frage ist, ob dieser Test das misst, was er behauptet, ob er über Populationen hinweg Bestand hat und ob er im großen Maßstab fair und gültig bleibt.
ETS entwickelt, führt sie durch und bewertet jedes Jahr Millionen von Tests, und die meisten davon haben echte Konsequenzen für die Menschen, die sie ablegen. Ein einzelnes Ergebnis kann die Zukunft eines Lernenden, eine Karrierechance oder ein Lizenzergebnis prägen. Diese Möglichkeiten für Menschen zu ermöglichen, treibt unsere Mission an und ist der Grund, warum wir uns an so hohe Standards messen. Wenn KI ins Spiel kommt, steigt die Messlatte höher, nicht niedriger. Wir erfüllen das, indem wir disziplinierte Entscheidungen darüber treffen, wo KI einen Mehrwert schafft, und indem wir sicherstellen, dass Menschen – und nicht KI – das Sagen behalten.
Wie ETS KI im gesamten Bewertungszyklus einsetzt
Bei ETS unterstützt KI mehrere Phasen des Bewertungslebenszyklus: Inhaltsentwicklung, Testzusammenstellung und -bereitstellung sowie Bewertung.
Inhaltsentwicklung
Wir nutzen unsere proprietäre KI-Inhalts-Engine, um erste Entwürfe von Aufgaben und verwandten Inhalten in den meisten unserer Hauptprogramme zu generieren. Wir setzen KI-Leitplanken, Einschränkungen und Anforderungen und bringen jahrzehntelange Erfahrung in der Bewertungsentwicklung mit, um die Anfangsgenerierung angemessen zu steuern. Heute sind fast 80 % unserer Bewertungsinhalte, einschließlich Fragen und Lesepassagen, Fang so an.
Aber die Erstellung von Inhalten ist nur der Ausgangspunkt. Bevor ein Gegenstand in einem unserer Programme verwendet wird, durchläuft er einen strukturierten Überprüfungsprozess, der darauf abzielt, seine Fairness und Zugänglichkeit sicherzustellen und gleichzeitig zu bestätigen, dass er sich erwartungsgemäß und der vorgesehenen Rubrik verhält. Einfach ausgedrückt behandeln wir KI-Ergebnisse nicht als fertige Arbeit. Wir behandeln es als einen Kandidaten, der sich seinen Weg in den Einsatz verdienen muss.
Montage und Lieferung
Wir nutzen KI, um Tests zu personalisieren, indem wir sie in Echtzeit anpassen. In einer adaptiven Testumgebung können Fragen oder Aufgaben basierend darauf ausgewählt werden, wie der Testteilnehmer auf die vorherigen Antworten reagiert hat, was die Bewertung effizienter sammelt. Diese Art von Bewertung ermöglicht kürzere, effizientere Testzeiten. Reduzierung der "Sitzzeit" für Testteilnehmer sowie die Anpassung der Inhalte besser an ihr Niveau.
Das ist nicht nur eine bessere Möglichkeit für Testteilnehmer, zu zeigen, was sie können. Es ist auch eine wichtige Sicherheitsmaßnahme: Menschen bekommen nicht genau das gleiche Formular zugewiesen und erhalten daher unterschiedliche Inhaltssätze.
Punktewertung
ETS verwendet KI zur Bewertung seit den frühen 2000er Jahren, lange vor dem Aufkommen großer Sprachmodelle (LLMs). Die eigentliche Frage ist nicht, ob KI eine Antwort bewerten kann, sondern ob sie dies zuverlässig, fair und nach den Standards des Programms tun kann, das sie bedient.
Deshalb werden einige ETS-Bewertungen vollständig von Menschen bewertet, während andere ausschließlich KI verwenden und wieder andere eine Kombination aus KI und menschlicher Bewertung je nach Antworttyp. Das richtige Bewertungsmodell hängt vom Programm, den Einsätzen der Punktzahl, der Art der bewerteten Antwort und den Erwartungen der Märkte ab, die es bedient. all dies dient dazu, für jeden Lernenden das genaueste, faire und vertretbarste Ergebnis zu erzielen.
Was "Vertrauen" für unsere Stakeholder bedeutet
Vertrauen in KI-gestützte Bewertungen ist keine einzelne Eigenschaft. Es geht darum, ob das System konsequent Ergebnisse liefert, die gültig, fair und zuverlässig sind und ob die Menschen, die auf diese Ergebnisse vertrauen, davon überzeugt sind.
Kernakteure der ETS verstehen Vertrauen im Zusammenhang mit KI unterschiedlich. Testteilnehmer sehen Vertrauen oft als Ergebnis von Fairness und Transparenz, während institutionelle Partner möglicherweise Nachweise für disziplinierte Lebenszykluskontrollen und Menschen in der Schleife verlangen. Partner sind an einer fortgesetzten Überwachung interessiert, um sicherzustellen, dass KI Vergleichbarkeit, Zuverlässigkeit oder Fairness nicht schwächt, während Programme wachsen. und politische Entscheidungsträger benötigen eine klare Darstellung davon, wie Risiken identifiziert, gemessen und über Populationen hinweg gesteuert werden.
Bei ETS ist das Ziel nicht, KI überall einzusetzen. Es geht darum, es zu nutzen, wo es uns hilft, mehr für Lernende und Institutionen zu tun, während wir die Standards aufrechterhalten, die wir über Jahrzehnte aufgebaut haben. Das bedeutet, die richtige Methode für die Aufgabe anzuwenden, Menschen an der Spitze zu halten und Beweise gründlich zu bewerten, bevor wir einer neuen Fähigkeit vertrauen. So machen wir KI nützlich und verantwortungsvoll, während wir das Vertrauen bewahren, das unsere Scorer und Lehrkräfte in uns und unsere Produkte einpflanzen.