Es ist nicht so einfach, wie man denkt.
Große Sprachmodelle (LLMs), wie OpenAIs ChatGPT und Metas Llama, verändern unser Leben schon seit einiger Zeit. Doch bei so vielen Modellen zur Auswahl fragen sich viele Menschen, welches Modell "das beste" ist. Um diese Frage zu beantworten, greifen sowohl Forscher als auch Nutzer oft auf Benchmarks und Tests zurück, um herauszufinden, welches Modell die schwierigsten Programmieraufgaben gelöst oder die höchste SAT-Punktzahl erzielt hat. In diesem Beitrag werde ich drei Punkte anführen.
- Weder Benchmarks noch traditionelle Tests sind geeignet, um die Fähigkeiten moderner LLMs zu bewerten.
- LLMs, die menschenähnliche Fähigkeiten zeigen, ohne menschliche Intelligenz und Kognition zu besitzen, fügen dem Bereich der Psychometrie völlig neue Dimensionen hinzu.
- Umfangreiche Forschung wird erforderlich sein, um zu LLM-Bewertungen zu gelangen, deren Ergebnisse mit Sicherheit interpretiert werden können.
Benchmarks
Benchmarks wurden traditionell verwendet, um die Leistung von Software und Hardware zu bewerten. Ein Benchmark bewertet die Leistung eines Werkzeugs, indem es eine Reihe von Aufgaben erledigt, für die es speziell entwickelt wurde. Ein Bildklassifikator wird bewertet, indem er eine Auswahl von Bildern klassifiziert, und ein Computerprozessor wird durch die Durchführung einer Reihe komplexer Berechnungen bewertet.
Was LLMs betrifft, ist Benchmarking nicht einfach. Erstens sind LLMs nicht für eine bestimmte Aufgabe ausgebildet: Sie können für die Textklassifikation verwendet werden, sind aber keine Textklassifikatoren; sie können zur Bewertung von Aufsätzen verwendet werden, sind aber keine automatisierten Bewertungspunkte – und so weiter. Daher hängt jedes Benchmark-Ergebnis nicht nur davon ab, welches LLM verwendet wurde, sondern auch davon , wie es verwendet wurde. Diese Mehrdeutigkeit schmälert die Glaubwürdigkeit der Ergebnisse und führt oft zu Debatten, etwa darüber, ob ein anderer Prompt zu anderen Ergebnissen geführt hätte.
Zwei weitere häufige Probleme bei Benchmarks sind die Sättigung, das heißt, alle aktuellen Modelle erreichen nahe an perfekte Punktzahlen, und Kontamination, was bedeutet, dass einige oder alle Elemente eines Benchmarks in den Trainingsdaten eines Modells enthalten sind. Beide Probleme sind besonders akut im Fall von LLMs, da ihr Fortschritt schnell ist und ihre Trainingsdaten praktisch das gesamte Internet enthalten.
Aufgrund dieser und anderer Probleme bieten viele LLM-Benchmarks nur begrenzten Wert bei der Bewertung der Gesamtqualität eines LLM. Dieser Mangel hat Initiativen ausgelöst, die Benchmarks nach verschiedenen Qualitätskriterien zu benchmarken. Solche Bemühungen zielen darauf ab, eine Reihe hochwertiger Benchmarks zu etablieren, die sorgfältig ausgearbeitete Problemsets umfassen, auf Sättigung und Verunreinigung überwacht und bei Bedarf aktualisiert oder neu kalibriert werden. In dieser Hinsicht nähern sich die Benchmarks traditionellen Tests, bei denen solche Praktiken von Anfang an üblich waren. Der Wechsel vom Benchmarking zum Testen von KI bringt jedoch eigene Herausforderungen mit sich.
Tests
Praktisch jeder wurde irgendwann in seinem Leben getestet, sei es für die Hochschulzulassung, die Berufszulassung oder einen Führerschein. Solche Tests unterscheiden sich deutlich von Benchmarks. Am wichtigsten ist, dass die Fähigkeit oder das Wissen, das ein Test bewertet, zu komplex ist, um direkt gemessen zu werden. Zum Beispiel kann die Bereitschaft eines Studierenden für das College nicht durch die Teilnahme an einer Auswahl von Bachelor-Programmen geprüft werden. Daher müssen Tests sorgfältig gestaltet werden, um gültig zu sein.
Betrachten Sie zwei gängige Arten von Validitätsbeweisen: prädiktive und inhaltsbezogene. Prädiktive Belege für die Validität eines Tests können durch das Ausmaß festgestellt werden, in dem seine Punktzahl wichtige beobachtbare Ergebnisse und Leistungen vorhersagt. Zum Beispiel korrelieren SAT-Ergebnisse gut mit verschiedenen Maßen des akademischen Erfolgs. Inhaltsbezogene Belege deuten darauf hin, dass der Test die getestete Fähigkeit widerspiegelt. Zum Beispiel sollte eine Algebra-Frage, die im Tenniskontext gestellt wird, keine Kenntnis der Tennisregeln erfordern und auch nicht nur durch Kenntnis der Tennisregeln beantwortet werden können.
Validitätsprobleme entstehen zwangsläufig, wenn wir LLMs Tests ablegen lassen, die für Menschen entwickelt wurden. Nehmen wir prädiktive Beweise: Ein LLM kann den SAT mit Bravour bestehen, wird sich aber nicht an der Universität einschreiben; er kann die Anwaltsprüfung mit Bravour bestehen, wird aber zumindest in absehbarer Zukunft keine Mandanten vor Gericht vertreten. Ähnliche Probleme treten bei inhaltsbezogenen Beweisen auf. Wenn ein Mensch bei einem Algebra-Test hohe Punktzahlen erzielt, könnte man daraus schließen, dass er die von den Testpunkten untersuchten Algebra-Gesetze versteht und anwenden kann. Im Gegensatz dazu bleibt die Frage, wie LLMs Algebraprobleme lösen und ob sie wirklich generalisierbare Gesetze lernen, weitgehend unbeantwortet. Typischerweise gilt: Je komplexer das zu prüfende Konstrukt, desto spekulativer wird die Interpretation eines LLM-Testergebnisses: Zeigt ein LLM, der bei einer medizinischen Lizenzprüfung hohe Werte erzielt, wirklich Kenntnisse in klinischer Medizin oder Patientenmanagement?
Da jedoch mehr Aufgaben und Verantwortlichkeiten an LLMs delegiert werden, erleben wir das Aufkommen früher Tests, die speziell für LLMs entwickelt wurden. Zum Beispiel muss ein Unternehmen, das ein LLM für seinen Kundenservice verwendet, ein neues Modell testen, bevor es eingeführt wird. Während solche Tests als Sammlung von Benchmarks und Sanity Checks beginnen können, werden sie im Laufe der Zeit tendenziell strukturierter und umfassen komplexere Elemente, die wichtige Aspekte von Herausforderungen abdecken, denen frühere Modelle begegneten und die sie möglicherweise missgehandhabt haben. Folglich wird der Test zu einem zunehmend informativen Indikator für die Fähigkeit eines Modells, die Kundenservicebedürfnisse des Unternehmens zu erfüllen.
Während solche "Proto-Tests" nützlich sind, sind sie oft proprietär, im Umfang begrenzt und eher von operativen Bedürfnissen als von wissenschaftlicher Forschung geleitet.
Forschungsherausforderungen
Wie oben argumentiert, widerlegt die ausgeprägte nicht-menschliche Intelligenz von LLMs viele der Annahmen, die der Testtheorie und Psychometrie zugrunde liegen. Erhebliche Forschungsanstrengungen werden erforderlich sein, um festzustellen, welche Tests für LLMs geeignet sind und welche Interpretationen der Testergebnisse durch wissenschaftlich fundierte Experimente gestützt werden können.
Zudem werden große Netzwerke, die von Grund auf auf riesigen Datensätzen trainiert werden, wahrscheinlich nicht die einzigen Systeme mit menschenähnlichen Fähigkeiten bleiben. Zum Beispiel lernen Joint-Embedding Predictive Architectures (JEPAs) auf menschlichere Weise, indem sie ihre Umgebung direkt beobachten und mit ihr interagieren, während neurosymbolische KIs sich auf symbolisches Denken und explizite Wissensrepräsentation konzentrieren. Daher könnten Forscher bald mit einer Vielzahl verschiedener Intelligenzarten konfrontiert werden, die dieselben Fähigkeiten hervorbringen.
Das wirft grundlegende Fragen auf: Können wir Konstrukte unabhängig von der zugrundeliegenden Intelligenzart definieren? Ist zum Beispiel die Fähigkeit, "kritisch zu denken", für Menschen und verschiedene Arten von KI gleich? Wenn ja, wie sollten wir sie messen ? Wird jede Art von Intelligenz ihren eigenen Test benötigen? Zum Beispiel könnte ein Test zum kritischen Denken die unterschiedlichen Lese- und Schreibfähigkeiten der Prüflinge berücksichtigen, aber wahrscheinlich annehmen, dass alle Testteilnehmer die Himmelsrichtungen zählen und kennen können. Bei LLMs ist das Gegenteil der Fall: Sie sind von Natur aus sehr literarisch bewandert, könnten aber an grundlegenden Fähigkeiten mangeln. Solange solche Unterschiede nicht berücksichtigt werden, bleiben die Ergebnisse der LLM-Tests anfällig für Fehlinterpretationen.
Schließlich könnte es eine interessante Kreuzbefruchtung zwischen KI-Tests und etablierteren Bereichen der Psychometrie geben. Beispielsweise haben Faktoren wie Alter, Geschlecht, Kultur und Bildung neben neurologischen Störungen gezeigt, dass sie kognitive Prozesse bei Individuen beeinflussen. In diesem Zusammenhang kann eine KI als Extremfall neurodivergenter Intelligenz gesehen werden. Ein besseres Verständnis dieses Extremfalls könnte den Weg für personalisiertere, gerechtere und objektivere Bewertungen ebnen, die es Lernenden mit einzigartigen kognitiven Eigenschaften ermöglichen, das gesamte Spektrum ihrer Kompetenzen zu demonstrieren.
Abschließend lässt sich sagen, dass die Bewertung von LLMs zwar eine beträchtliche Herausforderung darstellt, aber meine Mitforschenden am ETS und ich sind begeistert von der Möglichkeit, Grenzen zu verschieben und die Techniken der modernen Psychometrie zu verbessern.
Michael Fauss ist Forschungswissenschaftler am ETS Research Institute. Seine Arbeit konzentriert sich auf ethische KI.