
In einer Zeit, in der KI die Art und Weise verändert, wie Schüler lernen und Lehrkräfte unterrichten, sind nur wenige Stimmen so einflussreich wie Dr. Kristen DiCerbo, Chief Learning Officer an der Khan Academy. Kürzlich hat sich ETS mit DiCerbo zusammengesetzt, um zu erkunden, wie evidenzbasiertes Lerndesign, aufkommende Technologien und das Engagement für Bildungsgerechtigkeit zusammenkommen, um die Zukunft des personalisierten Unterrichts zu gestalten.
In diesem Gespräch bietet DiCerbo einen seltenen Einblick hinter die Kulissen dessen, was bedeutende Innovationen in der Bildung wirklich erfordern. Sie geht darauf ein, was funktioniert, was noch gelöst werden muss und wie Lehrkräfte diese sich wandelnde Landschaft mit Optimismus und Klarheit navigieren können.
Als Chief Learning Officer an der Khan Academy stehen Sie an vorderster Front bei der Integration von KI in Lernerfahrungen. Was begeistert Sie am meisten daran, Verhaltenssignale zur Messung von Fähigkeiten über traditionelle Bewertungen hinaus zu nutzen?
DiCerbo: Ich denke tatsächlich, dass KI uns vielleicht keine Verhaltenssignale bietet, sondern neue Aktivitäten. Wir arbeiten seit mehr als einem Jahrzehnt daran, Verhaltenssignale in der Bewertung mit Evidenz aus Simulationen und Spielen zu nutzen. Ich würde sagen, das Spannendste an generativer KI und Bewertung ist, dass sie neue Arten von Interaktionen ermöglicht. Zum Beispiel können Schüler Gespräche mit KI führen, die reale Gespräche nachahmen. Sie können auch visuelle Ergebnisse auf eine Weise erzeugen, die vorher nie möglich war.
Warum glauben Sie, ist jetzt der richtige Zeitpunkt, um Kompetenzen wie Zusammenarbeit und Ausdauer zu messen?
DiCerbo: Die Möglichkeit, neue Gesprächsarten von Interaktionen zu führen, eröffnet authentischere Möglichkeiten, Konstrukte wie Zusammenarbeit und Kommunikation zu bewerten. Wenn wir zum Beispiel Überzeugungskraft bewerten wollten, könnten Betroffene Gespräche mit einer KI führen, um sie von einer Haltung zu überzeugen. Vor generativer KI waren Gespräche in der Bewertung nicht möglich. Nehmen wir die PISA-Bewertung von 2015 zur kollaborativen Problemlösung. Um kollaborative Problemlösungsdialoge zu simulieren, mussten die Testersteller Multiple-Choice-Auswahl verwenden, bei der die Prüflinge entschieden, welche Option sie als Nächstes "sagen" wollten. Dies schränkte den möglichen Lösungsraum für die Prüflinge erheblich ein und machte das Erlebnis offensichtlich weniger wie ein echtes Problemlösungsgespräch. Mit generativer KI haben wir nun die Möglichkeit, dass Schüler sich wie mit Menschen austauschen, um ihre Fähigkeiten zu demonstrieren. Natürlich erfordert dies erheblichen Aufwand, einschließlich des Versuchs, die Reaktionen der KI auf die Eingaben der Schüler zu steuern.
Insbesondere was die Persistenz betrifft, sehe ich das anders als die oben genannten Konstrukte. Persistenz bedeutet im Wesentlichen zu beobachten, ob jemand trotz eines Scheiterns weiterhin versucht. Wir konnten das in digitalen Umgebungen mindestens seit einem Jahrzehnt beobachten (wie ich hier 2016 beschrieben habe).
Gibt es Möglichkeiten, multimodale Daten, wie Stimme oder Gesten, in Bewertungen einzubeziehen? Welche Herausforderungen oder ethischen Überlegungen gehen damit einher?
DiCerbo: Bei der Einführung von Khanmigo, dem KI-gestützten Nachhilfelehrer für Schüler und Lehrassistenten der Khan Academy, wurden unsere Text-zu-Sprache- und Sprache-zu-Text-Funktionen sehr gut aufgenommen, insbesondere als Mittel zur Reduzierung von Lese- und Tipplasten. Wenn wir in die Bewertung übergehen, wird die Herausforderung bei der Einbindung von Stimme oder Gestik darin bestehen, Verzerrungen bei der Bewertung zu vermeiden.
Wo sehen Sie das größte Potenzial bei der Nutzung von KI- und Verhaltensdaten zur Fähigkeitsmessung und welche Einschränkungen sollten Lehrkräfte berücksichtigen?
DiCerbo: Wir freuen uns, im vergangenen Jahr eine Funktion namens "Explain Your Thinking" mit etwa 8.000 Schülern pilotiert zu haben. Die Schüler beschäftigen sich mit einer traditionellen Mathematikfrage und führen dann einen Dialog mit generativer KI, in dem sie gebeten werden, die Beweggründe hinter ihrer Antwort zu erklären. Die Aktivität soll nachahmen, was Lehrer tun, wenn sie neben einem Schüler sitzen und nach dessen Arbeit fragen. Wie bei früheren Forschungen am ETS haben wir festgestellt, dass die Schüler in diesen Situationen mehr über ihr Verständnis preisgeben, als wenn sie einfach eine Antwort eingeben. Das bedeutet, dass Lehrer und andere Interessengruppen mehr Einblick darin erhalten, was die Schüler wissen und können.
Wie balancieren Sie die Tiefe der Erkenntnisse aus diesen innovativen Ansätzen mit dem Bedarf an Skalierbarkeit und Praktikabilität im Klassenzimmer?
DiCerbo: Wie bei vielen Dingen in der Bewertung beginnt Innovation am besten im formativen Raum, wo die Konsequenzen für Dinge wie erhöhte Messfehler gering sind. Wenn ein Schüler etwas Zeit damit verbringt, etwas zu üben, das er bereits gemeistert hat, weil eine Bewertung zeigte, dass er es nicht gemeistert hat, ist das kein fataler Fehler. Klassenzimmerbewertungen mit generativer KI können von Dozenten relativ einfach erstellt werden, so wie dieser Professor es bei der Erstellung von mündlichen Prüfungen für seine Klasse getan hat.
Mit Blick auf die Zukunft: Welche Rolle sehen Sie für KI bei der Erstellung von Assessments, die authentisch und kulturell responsiv wirken?
DiCerbo: Wir brauchen mehr Forschung darüber, ob die Personalisierung, die mit generativ-KI-gestützten Bewertungen möglich sein könnte, zu valideren und zuverlässigeren Bewertungen führt. Es ist sicherlich so, dass die Einbeziehung von konstrukt-irrelevantem Hintergrundwissen für einige Testteilnehmer zu einer geringeren Validität führen kann. Es ist möglich, dass die Nutzung generativer KI, Bewertungspunkte und -aktivitäten angepasst werden könnte, um die Erfahrungen, die Sprache und das kulturelle Verständnis einzelner Schüler zu berücksichtigen. Dies jedoch unter Einhaltung der Standarddefinitionen des zu bewertenden Konstrukts ist keine einfache Aufgabe.
Welche Forschung oder Innovationen begeistern Sie in den nächsten Jahren am meisten, um reale Fähigkeiten anhand von Verhalten zu messen?
DiCerbo: Ich habe Innovationen in ein paar Eimer gepackt. Hier ist, worauf ich mich freue.
- Technologie, die es gibt, die wir aber noch nicht für die Bewertung optimiert haben:
- Agentische KI – ermöglicht die Trennung verschiedener Teile des Bewertungsprozesses durch spezialisierte Agenten
- Große Kontextfenster – die Bereitstellung großer Informationsmengen an KI kann bei kontextreichem Feedback und der Bewertung mit komplexen Bewertungskriterien helfen.
- Technologie, die in den nächsten 12 Monaten verfügbar ist:
- Erschwingliches Text-, Audio- und Video-Streaming – ermöglicht es sowohl dem Testteilnehmern als auch der KI, auf verschiedene Arten zu interagieren, wie in dieser Demo von Sal und seinem Sohn
- Erklärbare KI – das Verständnis, dass KI-Argumentation Anwendungen wie Scoring besser unterstützt, bei denen "Black-Box"-Ergebnisse nicht hilfreich sind, um Lernenden Rückmeldung zu geben
- Datenschutzbewusste On-Device-Modelle – werden Bedenken hinsichtlich Datenfreigabe und Datenschutz adressieren
- Technologie, die in den nächsten 1-3 Jahren verfügbar ist:
- Multi-Agenten-Simulationen – Testteilnehmer interagieren mit mehreren KIs, die unterschiedliche Rollen in der Bewertung spielen und reale Gruppenszenarien simulieren