Zum Hauptinhalt wechseln
Skip to footer

TOEFL-FORSCHUNG

Ein faires Maß an englischen Schreibfähigkeiten aufbauen: Ein Gespräch mit Larry Davis

30. März 2026

Ein faires Maß an englischen Schreibfähigkeiten aufbauen: Ein Interview mit Larry Davis

Im Folgenden finden Sie ein Gespräch zwischen dem Forschungsdirektor von ETS, Larry Davis, der seit mehr als einem Jahrzehnt eine führende Rolle in der TOEFL-Forschung® spielt, und John Clark, Direktor für strategische Initiativen. Mehr von Larrys Forschung können Sie hier lesen. 

Larry, ich wollte mit einer Frage zu deinem akademischen Hintergrund beginnen. Stimmt es, dass du zuerst einen Bachelor-Abschluss in Fischereiwissenschaften gemacht hast?

Ja, ich hatte einen Bachelor of Science in Tierwissenschaften mit Schwerpunkt Aquakultur und dann einen Master in Fischereiwissenschaften.

Unglaublich! Das mag eine unfaire Frage sein, aber gibt es Verbindungen zwischen diesen Bereichen und der Sprachbewertung, also dem Beruf, den du gewählt hast?

Es sind sehr unterschiedliche Fachgebiete, das ist sicher. Aber es gibt einige Gemeinsamkeiten. Und die haben damit zu tun, herauszufinden, wie man Dinge misst und dann analysiert, was man misst. 

In meiner Arbeit in der Fischerei haben wir die Physiologie und das Wanderverhalten von Lachsen untersucht. Und es gab nicht immer feste Methoden, um Phänomene im Zusammenhang mit diesen Dingen zu messen. 

Ein großer Teil dieser Aufgabe besteht also darin, zunächst herauszufinden, wie man etwas misst, das uns etwas Interessantes verrät. Und dann, wenn man diese Daten hat, wie bewertet oder analysiert man sie, um Entscheidungen zu treffen?

Bei Sprachtests ist es dasselbe Problem. Welche Art von Beweisen sammeln wir über die Fähigkeit einer Person, auf Englisch zu kommunizieren? Wie sammeln wir diese Daten? Und wie bewerten wir sie so, dass sie für Entscheidungsfindung nützlich sein können?

Es sind also sehr unterschiedliche Bereiche, aber beide stehen vor ähnlichen Problemen.

Das ist ein sehr hilfreicher Vergleich. Übrigens war ich schon bei den Lachsleitern am Willamette River in Oregon, wo dort Bauwerke gebaut wurden, die es Lachsen ermöglichen, um Dämme herum zu schwimmen und flussaufwärts zu laichen. Das ist mein Umfang meines Lachswissens.

Ich war schon tief in solchen Orten, auch in großen Wasserkraftwerken, zu denen man wahrscheinlich wegen Sicherheitsbedenken kaum noch Zugang hat. 

Ah! Du scheinst ein weniger gefährliches Feld gewählt zu haben. Aber du hast die Grundlage für das Thema gelegt, das ich besprechen wollte. 

Eine der schwierigsten Herausforderungen bei der Englischprüfung ist es, aussagekräftige Indikatoren für die englischen Schreibfähigkeiten eines Schülers zu sammeln.  Wie denken Sie über die Herausforderungen, die das Testen von Schreibfähigkeiten in einer standardisierten Prüfung innewohnt?

Ich denke, eine grundlegende Herausforderung ist, dass wir, wie Sie angedeutet haben, nur eine sehr kurze Stichprobe dessen sammeln können, was jemand schriftlich tun kann.

Und basierend auf dieser Stichprobe – ob zehn Minuten, eine Stunde oder sogar ein paar Stunden –  ist das nur ein kleiner Teil all des Schreibens, das jemand schreiben könnte, sowohl hinsichtlich der Anzahl der Wörter, die er im Laufe seiner akademischen Laufbahn schreibt, als auch der verschiedenen Arten von Schreiben, die jemand in seinem akademischen Studium machen könnte. 

Das Spiel dreht sich also wirklich um Vorhersage. Wir sammeln eine Stichprobe dessen, was sie leisten können. Und auf Basis dieser Probe machen wir einige Empfehlungen darüber, was wir glauben, dass diese Person in der realen Welt wahrscheinlich leisten wird. Das ist also die grundlegende Herausforderung. 

Es gibt verschiedene vernünftige Ansätze, um diese Herausforderung anzugehen. In gewisser Weise kann man eine relativ kurze Stichprobe nehmen und sie mit anderen Daten kombinieren, um ein Gefühl für die allgemeinen Fähigkeiten einer Person zu bekommen. Und das ist der Ansatz, der typisch für Sprachkompetenztests ist.

Am anderen Ende des Spektrums kann jemand Aufgaben übernehmen, die sehr spezifisch für eine bestimmte Situation sind, und das würde direktere Schlüsse darüber führen, was jemand in dieser Situation tun kann. 

Diese Art von 'spezifischer Zwecke'-Prüfung könnte etwas wie eine Anwaltsprüfung sein, die wahrscheinlich etwas näher an dem Schreiben liegt, das von einem Anwalt erwartet wird, im Gegensatz zu den sehr allgemeinen Texten, die wir bei Sprachkompetenztests bewerten.

Speziell für TOEFL haben Sie und unser Kollege John Norris unsere Bemühungen zur Erforschung der Auswirkungen eines neuen Fragetyps namens Write for an Academic Discussion geleitet.  Warum hielt ETS es für angebracht, unsere Prüfung des Schreiben auf TOEFL erneut zu überprüfen?

Nun, es gibt verschiedene Gründe, die die Entwicklung dieser Aufgabe motiviert haben. Einer davon ist, dass sich seit der ursprünglichen Entwicklung des TOEFL IBT, beginnend Mitte der 1990er und bis Anfang der 2000er Jahre, das Schreiben in Universitätsumgebungen wohl verändert hat.

Aber der Test hatte sich nicht geändert. Deshalb hatten wir das Gefühl, dass es in diesem Fall einen gewissen Grund gab, neu entwickelte Schreibarten zu berücksichtigen. Und diese Genres sind meist kürzer. Sie sind auch oft eher gesprächig.

Wir wollten eine Aufgabe entwickeln, die einen Teil davon abdeckt. Das war also eine Motivation. Ein weiterer zusätzlicher Vorteil ist, dass sie idealerweise hilft, die Testzeit zu reduzieren. In der früheren Version des Tests dauerte der Schreibabschnitt von TOEFL IBT im Grunde eine Stunde und bestand aus zwei Aufgaben. 

Aus psychometrischer Sicht liefert das nicht viele Informationen über die Zeit, die die Leute für diesen Teil des Tests aufwenden. Diese Sparsamkeit bei der Testzeit war ein weiterer zusätzlicher Vorteil bei der Gestaltung der Aufgabe.

Abgesehen davon, dass dieser Abschnitt zeiteffizienter gemacht wurde, was waren weitere Motivationen hinter der Entwicklung der Aufgabe "Schreiben für eine akademische Diskussion "?

Ein weiteres Ziel war es, zusätzlichen Kontext für das Schreiben zu schaffen. Die Aufgabe, die Write for an Academic Discussion ersetzte, war eine sehr traditionelle Aufsatzaufgabe. Man bekommt eine Meinungsfrage, weißt du – was bevorzugst du, Hunde oder Katzen? Und das ist alles, was du bekommst.

Dies ist eine sehr traditionelle und langjährig verwendete Art von Testobjekt. Aber sie liefert keinen Kontext. Und sie sagt Ihnen nicht, wer das Publikum ist. Sie sagt auch nichts über die größere Situation. Dieser Mangel an Kontext wurde in der Schreibgemeinschaft kritisiert, aber praktisch gesehen führt er auch zu Problemen bei der Entscheidung, ob eine Antwort angemessen ist oder nicht.

Zum Beispiel könnte ein Student in einem akademischen Stil schreiben und ein anderer in einem umgangssprachlichen Stil. Bewerter wollen dem Schüler mit dem akademischeren Stil meist eine höhere Punktzahl geben, aber es gibt keinen wirklich grundsätzlichen Grund, diese Art von Schreiben gegenüber dem Slang-Schreibstil zu bevorzugen, weil wir ihnen nicht gesagt haben, wer das Publikum ist.

Das ist also auch ein wichtiger Punkt. Klar definierten Zweck und Publikum helfen uns, diese Reaktionen rationaler zu bewerten.

Für diejenigen, die TOEFL kürzlich nicht belegt haben, enthält die Aufgabe "Write for an Academic Discussion " einen Prompt von einem Professor sowie zwei Antworten von Studierenden. Und von dem Testteilnehmer wird erwartet, dass er mit diesen Aufgaben genauso umgeht wie in einem modernen akademischen Forum.

Ja, das stimmt.

Wie gewinnen wir das Vertrauen, dass eine solche Aufgabe für die Prüfung geeignet ist? 

Das ist eine wirklich gute Frage. Und die Testvalidität – worauf diese Frage hinausgeht – ist etwas, womit Graduiertenstudierende in der Sprachbewertung viel Zeit verbringen. Das ist ein Thema, dem das Fachgebiet über viele Jahrzehnte hinweg viel Aufmerksamkeit geschenkt hat. Und deshalb haben wir sehr gut etablierte Verfahren, um darüber nachzudenken, wie man eine Testaufgabe rechtfertigt.

Dies nimmt meist die Form eines sogenannten Validitätsarguments an, das bestimmte Arten von Beweisen berücksichtigen sollte. Diese Art von Beweis könnte die Beziehung der Aufgabe zu realen Aufgaben sein. Wie nah ist sie also oder was sagt sie uns darüber, was jemand in der realen Welt leisten kann?

Es würde auch Belege darüber enthalten, wie die Aufgabe bewertet wird und ob diese Bewertung konsistent und fair ist. Und erfasst die Bewertung tatsächlich die wichtigen Teile dessen, was die Menschen bei dieser Aufgabe tun müssen? 

Es würde auch das Sammeln von Beweisen darüber umfassen, wie dieses Maß mit anderen ähnlichen Messgrößen ähnlicher Fähigkeit zusammenhängt. Wenn wir zum Beispiel eine Schreibaufgabe haben, sollte sie eine positive Beziehung zu anderen Schreibbewertungen haben. 

Schließlich stellt sich die Frage, wie der Test mit der Leistung in der realen Welt zusammenhängt. Wenn die Leute also eine hohe Punktzahl im Test erzielen, bedeutet das, dass sie in realen Situationen, wie in ihrem Schreibkurs, gut abschneiden werden? Und schließlich: Was ist der Rückschlag? 

Und mit Washback meine ich: Wenn die Leute sich auf diese Aufgabe vorbereiten, bringt das dann tatsächlich ihre Sprachfähigkeiten zugute? Hilft ihnen diese Vorbereitung tatsächlich, ihre Fähigkeiten zu verbessern? Oder lernen sie einfach, durch Reifen zu springen? Und die Leute bereiten sich vor, wenn es ein Test mit hohem Einsatz ist.

Es gibt also dieses ganze Rahmenwerk und eine Denkkette, die in die Rechtfertigung dieser Aufgaben einfließen. Und dieses Rahmenwerk bietet eine Grundlage dafür, wie wir entscheiden, ob ein Test oder eine Testaufgabe geeignet ist.

In der Arbeit, in der Sie die Aufgabe "Write for an Academic Discussion " mit dem unabhängigen Aufsatz verglichen haben, fanden Sie "Ähnlichkeiten in der Qualität des von Prüfungsteilnehmern produzierten Textes hinsichtlich syntaktischer Komplexität, grammatikalischer Genauigkeit, lexikalischer Vielfalt, Diskurs, Kohärenz und Ausarbeitung sowie Flüssigkeit ihres Schreibens."  

Und diese Begriffe sind wichtig, weil sie Teil der Bewertung der Leistung von Schülern sind. Aber was meinst du eigentlich mit "syntaktische Komplexität"?

Syntaktische Komplexität hängt mit den grammatikalischen Strukturen zusammen, die im Text verwendet werden. Manche Zuhörer haben vielleicht schon in ihrer Schulzeit diagrammierte Sätze und wissen, wovon ich spreche, aber ein syntaktisch komplexerer Satz hat ein längeres und komplexeres Diagramm. Und er wird dazu neigen, verschiedene Dinge wie mehrere Sätze zu enthalten. 

Um eine Metapher zu verwenden: Wenn ein einfacher Satz wie ein Bambusstab ist, der einfach nach oben geht, ist ein komplexer Satz eher wie ein Baum mit vielen Ästen, die idealerweise alle zu einer kohärenten Bedeutung beitragen. 

Danke, dass du diesen Begriff klargestellt hast – Bambus, ich verstehe! Erzähl mir ein wenig mehr über die Studie zur neu verfeinerten Schreibaufgabe.

Das grundlegende Problem in der Studie, die wir gemacht haben, war, dass wir bei der Einführung der Aufgabe "Write for an Academic Discussion " die Interpretation der Testergebnisse nicht ändern wollten. Die Idee ist also, dass wir die Aufgabe ändern, aber sie sollte dennoch die gleichen Arten von Schlussfolgerungen über die Fähigkeiten einer Person unterstützen. 

Und in diesem Fall ist es wichtig, die Art von Beweisen zu betrachten, die wir aus der damaligen bestehenden Aufgabe im Vergleich zu dieser neuen Aufgabe erhalten. Wir haben also Daten von Leuten genommen, die beide Aufgaben erledigt hatten, und dann die verschiedenen Merkmale des Textes analysiert. 

Syntaktische Komplexität war ein Vergleichspunkt neben anderen, die du erwähnt hast: grammatikalische Genauigkeit, Vokabelgebrauch, Kohäsion, Diskursmarker, solche Dinge.

Darf ich noch einen Satz fragen? Lexikalische Variante. Was bedeutet das?

Es geht um den Wortschatz. Oder speziell um den Wortschatz. Und der Grund, warum wir das betrachten, ist, dass es nicht nur darum geht, viele verschiedene oder große Wörter zu verwenden. Es geht um Präzision. Wenn du mehr Wörter in deinem Wortbeutel hast, kannst du deine Bedeutungen präziser kommunizieren.

Verstanden! Larry, danke für den Einblick hinter die Kulissen, wie wir einen Teil unseres Tests gestalten. Ich habe ein Kind, das gerade schreiben lernt, und für mich ist es ein Wunder, dass ich es nicht verstehe. Aber Larry, du hast geholfen, den Prozess der Messung der englischen Schrift zu entmystifizieren. Sehr dankbar für deine Zeit.

Es war wirklich ein Vergnügen zu plaudern, John – und ich rede immer gerne darüber, wie die Wurst gemacht wird, sozusagen.

Ja, also, und apropos Abendessen, lass uns bald auch über Lachs reden.

Klingt super.

Facebook Twitter LinkedIn
URL auf die Zwischenablage kopieren

Verwandte Themen

Validity by design
TOEFL Research
Inside the TOEFL iBT Updates: Validity by Design

A behind-the-scenes look at how the updated TOEFL iBT was designed to ensure valid, meaningful results for modern academic environments.

April 22, 2026
toefl speaking research
TOEFL Research
Connecting TOEFL Speaking to Speaking at University

Learn how the TOEFL iBT® Speaking tasks, Listen & Repeat and Take an Interview, serve as strong indicators of how well students perform on actual academic speaking tasks.

February 24, 2026