Die Theorie hinter dem TOEIC-Programm
Wie können Sie feststellen, ob ein Test für den Zweck geeignet ist, für den er entwickelt wurde? Diese grundlegende Frage der Validität ist ein Anliegen für Testentwickler, Forscher und Score-Nutzer. Professionelle Standards haben die Ansicht übernommen, dass Testentwickler Stakeholder (also alle, die vom Test betroffen sind) davon überzeugen müssen, dass die beabsichtigte Verwendung eines Tests angemessen unterstützt oder gerechtfertigt ist. Diese Sichtweise wird im argumentbasierten Ansatz zur Rechtfertigung der Testverwendung formalisiert.
Das Papier "Articulating and Evaluating Validity Arguments for the TOEIC® Tests" bietet eine zugängliche Einführung in den argumentbasierten Ansatz, dessen Umsetzung für TOEIC-Tests und dessen wahrgenommene Vorteile für Stakeholder.
Das Papier beginnt mit einer kurzen Übersicht über das Assessment Use Argument, einen prominenten argumentbasierten Ansatz zur Validierung. Anschließend beschreibt er den Prozess, mit dem Validierungsargumente für TOEIC-Tests erstellt werden.
Dieser Prozess umfasste Belege aus verschiedenen Quellen, darunter Testdokumentation, Überwachungsaktivitäten und Forschung. Abschließend bietet das Papier einen Überblick über die zwei Hauptarten, wie die TOEIC-Validierungsargumente verwendet werden: zur Priorisierung der Forschung und zur Kommunikation mit Stakeholdern.
Insgesamt zeigt dieser Prozess, wie die TOEIC-Forschung einen breiten, kritischen und rigorosen Ansatz verfolgt, um die angemessenen Anwendungen der TOEIC-Tests zu unterstützen. Diese Arbeit zielt auch darauf ab, die Bewertungskompetenz der Interessengruppen zu verbessern, indem der Fokus auf die wichtigsten Ansprüche liegt, die alle Testentwickler unterstützen sollten.
Zweck
Der argumentbasierte Ansatz zur Rechtfertigung der Testnutzung setzt voraus, dass Testentwickler Stakeholder (also alle, die vom Test betroffen sind) davon überzeugen müssen, dass die beabsichtigte Nutzung des Tests gerechtfertigt ist. Zu diesem Zweck macht der Testentwickler explizite Aussagen darüber, wie Testergebnisse interpretiert und zur Entscheidungsfindung verwendet werden sollten. Diese Behauptungen werden durch Beweise gestützt oder widerlegt, die Dokumentationen aus dem Testentwicklungsprozess und/oder laufende Forschung umfassen können. Durch die Prüfung der Behauptungen des Testentwicklers und der dafür gestützten Belege können die Beteiligten zu einer globalen Bewertung kommen, ob die beabsichtigte Nutzung des Tests gerechtfertigt ist. Dieser Ansatz wird verwendet, um:
- Entwicklung von Guide-Tests
- Geben Sie eine Richtung für laufende Forschung
- dient als Rechenschaftsinstrument für verschiedene Interessengruppen
Struktur
Ein Assessment Use Argument ist "ein konzeptioneller Rahmen zur Steuerung der Entwicklung und Nutzung einer bestimmten Sprachbewertung, einschließlich der Interpretationen und Verwendungen, die wir auf der Grundlage der Bewertung vornehmen" (Bachman und Palmer, 2010, 99). Das Framework ist als hierarchisches Set von Ansprüchen des Testentwicklers strukturiert, wie Testergebnisse interpretiert und zur Entscheidungsfindung verwendet werden sollen. Es nimmt folgende allgemeine Form an:

Jede Komponente in der obigen Abbildung stellt einen Anspruch dar. Auf höchster Ebene kann der Testentwickler behaupten, dass die Folgen der auf dem Test getroffenen Entscheidungen für alle Interessengruppen vorteilhaft sind (z. B. wurden Entscheidungsfehler minimiert). Dies setzt eine Behauptung bezüglich der Entscheidungen voraus, die sich aus Punktinterpretationen ergeben – nämlich, dass Entscheidungen gerecht und sensibel für die Werte relevanter Institutionen (bildungsbezogen, gesellschaftlich, organisatorisch, rechtlich) sind. Um Interpretationen über die Fähigkeiten des Testteilnehmers anhand von Ergebnissen zu rechtfertigen , stellt der Testentwickler Behauptungen über Bedeutung, Unparteilichkeit, Generalisierbarkeit, Relevanz und Ausreichendheit der Interpretationen. Schließlich beruhen all diese Behauptungen auf der grundlegenden Behauptung, dass Ergebnisse, die auf den Leistungen der Testteilnehmer basieren, über Testformen, Verwaltungen und Bewerter hinweg konsistent sind. Daher besteht jeder Anspruch in einem AUA aus:
- ein Ergebnis der Testnutzung (z. B. die Entscheidungen, die sich aus Interpretationen über die Fähigkeiten der Prüflinge ergeben)
- Eigenschaften dieses Ergebnisses (z. B. Entscheidungen sind wertesensitiv und gerecht)
Sowohl Entscheidungsträger als auch Testentwickler teilen sich die Verantwortung für die Rechtfertigung der Bewertung der Bewertung. Von Testentwicklern wird erwartet, dass sie Belege vorlegen, die die Behauptung stützen, dass Testergebnisse konsistent sind und dass Ergebnisse zur Interpretation der Fähigkeiten der Testteilnehmer verwendet werden können. Entscheidungsträger müssen nachweisen, dass Entscheidungen wertensensibel und gerecht sind und dass die Konsequenzen von Entscheidungen vorteilhaft sind. Leider fehlt Entscheidungsträgern möglicherweise die nötige Expertise, um diese Behauptungen ausreichend zu untermauern (z. B. Dokumentation aus der Standardsetzung, Schätzungen von Entscheidungsfehlern). Daher kann ein AUA durch die Zusammenarbeit zwischen Entscheidungsträgern und Testentwicklern verbessert werden. Zumindest sollten Testentwickler Rückmeldungen von Entscheidungsträgern einholen, um festzustellen, ob Behauptungen über Entscheidungen und Konsequenzen auf Basis der Testnutzung gerechtfertigt sein können.
Nutzen
Insgesamt bietet die Struktur eines AUA eine Grundlage für eine umfassende Rechtfertigung der Testnutzung, die reale Bedenken über Entscheidungen und deren Konsequenzen mit den traditionellen Anliegen der Testentwickler – Zuverlässigkeit und Validität – verbindet. Als umfassende Liste von Ansprüchen, Durchsuchungsbefehlen, Untermauerungen und Widerlegungen kann sie genutzt werden, um Schwächen im Gesamtargument für die Testnutzung zu identifizieren und Forschungs- oder Testentwicklungsprojekte zu priorisieren.
Schließlich kann ein AUA als einfaches hierarchisches Satz von Behauptungen (wie in der obigen Abbildung gezeigt) als Kommunikationsinstrument verwendet werden, das die wichtigsten Fragen veranschaulicht, die wichtige Eigenschaften der Nützlichkeit eines Tests bestimmen, darunter Fairness, Auswirkung, Zuverlässigkeit und Validität. Die Anliegen von Einzelpersonen und Interessengruppen variieren, und eine der Herausforderungen für die Forschung besteht darin, diese Anliegen kohärent anzugehen und gleichzeitig die Bewertungskompetenz der Stakeholder zu verbessern. Bedenken können sein:
- Punktkonsistenz
"Wie kannst du sicherstellen, dass alle Bewerter den Bewertungsrichtlinien folgen?" - Die Interpretation von Partituren
"Wenn wir die Kriteriumsvalidität berechnen, wer oder was ist dann das Kriterium?" - Die Entscheidungen basieren auf diesen Auslegungen
"Wie hoch sind die Cutscores in anderen Institutionen?" - Folgen der Testnutzung
"Wie haben die TOEIC-Tests für Arbeitssuchende geholfen?" - Testnutzung, die sich auf eine Reihe dieser Themen bezieht,
"Wie können Personalvermittler wissen, dass TOEIC-Ergebnisse den Anforderungen des Marktes entsprechen?"
Indem ein Testentwickler mit einem starken Forschungsprogramm Versionen einer AUA für bestimmte Interessengruppen liefert, kann er den Stakeholdern helfen, Antworten auf ihre Fragen zu finden und zu anspruchsvolleren Konsumenten von Bewertungsprodukten zu werden.
Wir geben eine Beschreibung, wie dieser Ansatz für die neu gestalteten TOEIC-Bridge-Tests® umgesetzt wurde, in der Studie "Making the case for the quality and use of a new language proficiency assessment: Validity argument for the redesigned TOEIC Bridge tests." In diesem Artikel beschreiben Forscher die Belege, die spezifische Behauptungen zur Score-Konsistenz unterstützen. die Interpretation von Testergebnissen, Entscheidungen basierend auf Testergebnissen und die Folgen der Testnutzung. Diese Synthese ermutigt die Beteiligten, sich kritisch mit den tatsächlichen Aussagen (und Beweisen) darüber auseinanderzusetzen, was ein Test misst und wie er verwendet werden soll. Dieses Maß an Engagement kann den Beteiligten helfen, besser zu verstehen, ob die Tests gut geeignet sind, um ihre Anforderungen zu erfüllen, sowie welche Rolle sie bei der effektiven Nutzung der Tests spielen.
Bachman, L. F., & Palmer, A. (2010). Sprachbewertung in der Praxis. Oxford: Oxford University Press.
Schmidgall, J. (2017). Formulierung und Bewertung der Validitätsargumente für die TOEIC-Tests® (Forschungsmemorandum Nr. RM-13-09). ETS.
Schmidgall, J., Cid, J., Carter Grissom, E., & Li, L. (2021). Argumentation für die Qualität und Nutzung einer neuen Sprachkompetenzbewertung: Validitätsargument für die neu gestalteten TOEIC-Brückentests® (Forschungsbericht Nr. RR-21-20). ETS.