Wie können digitale Tools Lehrkräfte bei Korrekturen entlasten?
Können Algorithmen die Korrekturen der Lehrkräfte ersetzen? Und wenn ja, warum werden in der Praxis nicht viel häufiger digitale Klassenarbeiten geschrieben? Über diese Fragen sprach das Schulportal mit Bildungsforscher Olaf Köller, Direktor des Leibniz-Instituts für die Pädagogik der Naturwissenschaften und Mathematik (IPN) an der Christian-Albrechts-Universität zu Kiel und Co-Vorsitzender der Ständigen Wissenschaftlichen Kommission (SWK).
Deutsches Schulportal: Korrekturen von Klassenarbeiten rauben den Lehrkräften viel Zeit und sind auch fehleranfällig – wäre eine digitale Auswertung von digital geschriebenen Klassenarbeiten nicht effizienter?
Olaf Köller: Multiple-Choice-Aufgaben oder geschlossene Fragen können schon lange automatisch ausgewertet werden, vorausgesetzt, solche Klassenarbeiten oder Tests werden von den Schülerinnen und Schülern am Rechner geschrieben. Interessanter sind die aktuellen Entwicklungen im Bereich von geschriebenen Texten. Gerade diese sind ja in Fächern wie Deutsch, Englisch oder Geschichte besonders korrekturintensiv. Mithilfe von computerlinguistischen Methoden, also mit natürlicher Sprachverarbeitung und Machine Learning, wurden inzwischen Algorithmen entwickelt, mit denen in Windeseile geschriebene Texte von Schülerinnen und Schülern ausgewertet und bewertet werden können.
Wie funktioniert das bei Aufgaben, für die es nicht die eine richtige Antwort gibt?
Das geht nur mit intensivem Training des Computers. Wir geben der Maschine viele Beispieltexte, die von Menschen übereinstimmend bewertet wurden. Das heißt, Expertinnen und Experten sind zum selben Urteil über die Güte des Textes gekommen. Anhand dieser Ratings kann man die Maschine so trainieren, dass sie unter Berücksichtigung vieler Textmerkmale zur gleichen Bewertung kommt wie die Menschen. Irgendwann werden wir dahin kommen, dass wir die Menschen nicht mehr zur Vorbereitung des Machine Learnings brauchen. Aber so weit sind wir noch nicht. Noch brauchen wir das Trainingsmaterial von menschlichen Bewerterinnen und Bewertern, die im Übrigen vorher intensiv trainiert werden müssen.
Derzeit versuchen wir in unserer Forschungsarbeit, die Algorithmen so zu entwickeln, dass sie auch auf ähnliche Aufgaben übertragen werden können, um den Aufwand des Trainings zu reduzieren. Zudem gehen wir der Frage nach, wie viele bewertete Beispieltexte tatsächlich nötig sind, um einen stabilen Vorhersagealgorithmus zu entwickeln. Bislang hat man dafür immer sehr große Textkorpora von etwa 1.000 Schülerarbeiten benötigt. Unser Ziel ist es, schon mit 100 Texten zu robusten Algorithmen zu kommen. Wenn uns das gelingt, können wir in kurzer Zeit hunderte von Aufgaben zum Lernen und für Klassenarbeiten produzieren, die den Lehrerinnen und Lehrern über ein Portal zur Verfügung gestellt werden. Wir sind da zuversichtlich, denn es werden momentan immense Fortschritte im Bereich der natürlichen Sprachverarbeitung (NLP) gemacht.
Ist das vergleichbar mit ChatGPT?
In gewisser Weise ja, wenn auch die Algorithmen von ChatGPT etwas anders funktionieren. Hier kann man das Programm bitten, Texte nach bestimmten Kriterien auszuwerten, beispielsweise nach sprachlichen, inhaltlichen und stilistischen Kriterien. ChatGPT gibt dann eine formative Rückmeldung, tut sich aber schwer mit Noten. Das formative Assessment funktioniert auch ohne ein Training anhand von menschlichen Bewertungen. Die Schülerinnen und Schüler erhalten beispielsweise eine Rückmeldung, wie sie ihren argumentativen Text weiter verbessern können.
Wir erforschen derzeit, unter welchen Bedingungen ChatGPT für eine formative Rückmeldung funktioniert. Wenn man ChatGPT vorab einige gute Texte gibt und dazu Deskriptoren, wodurch sich ein guter argumentativer Text auszeichnet, klappt das schon ganz gut. Auf diese Weise kann ChatGPT den Schülerinnen und Schülern genau sagen, was fehlt, um ihren Text weiter zu verbessern. Inwieweit die Schülerinnen und Schüler diese Rückmeldung dann annehmen und tatsächlich weiter an ihrem Text arbeiten, hat die Maschine natürlich nicht in der Hand.
Daran scheitern wir aktuell noch in vielen unserer Untersuchungen. Wir geben den Schülerinnen und Schülern zwar bereits automatisiert formative Rückmeldungen, aber diese werden oft gar nicht richtig aufgenommen und weiterverarbeitet. Deshalb haben wir jetzt eine Zeitvorgabe getestet, mit der die Schülerinnen und Schüler gezwungen sind, 20 bis 30 Minuten an dem Text weiterzuarbeiten, bevor sie ihn absenden können. Die Ergebnisse werden dadurch deutlich besser.
Vielleicht braucht es da eben doch die Lehrkraft, die die Schülerinnen und Schüler durch eine persönliche Rückmeldung motiviert?
Ja natürlich, aber auch dabei kann die Software behilflich sein. Die automatisierten Rückmeldungen für die Schülerinnen und Schüler gehen ja auch an die Lehrkraft. Dabei werden auffällige Arbeiten von Schülerinnen und Schülern extra gekennzeichnet. So bekommt die Lehrkraft einen Hinweis, bei wem sie genauer hinschauen sollte, wo es besondere Probleme gibt. Lehrerinnen und Lehrer kennen in der Regel ihre Schülerinnen und Schüler. Entsprechend haben sie auch Erwartungen an die Arbeiten. Wenn Georg oder Gabi etwa das ganze Schuljahr blendend performt haben, wird das von der Lehrkraft auch in der Arbeit erwartet. Wenn das digitale System dann eine glatte Eins signalisiert, muss sich die Lehrkraft die Arbeiten nicht so genau ansehen. Interessant sind die Fälle, bei denen es erwartungswidrige Ergebnisse gibt. Und bei den Schülerinnen und Schülern, die bekanntermaßen lernschwächer sind, kann die Lehrkraft auf einen Blick sehen, wo genau die Problemstellen liegen, sodass sie darauf eingehen kann. Wir bezeichnen das als semiautomatisiert, das heißt, die Lehrkraft bleibt immer im Spiel und unterstützt auf Grundlage der Informationen, die die Maschine liefert, den Schüler oder die Schülerin.
Wird dadurch möglicherweise die Bewertung auch objektiver und gerechter?
Ja. Es gibt zum Beispiel diesen berühmten Kontrasteffekt bei den Bewertungen. Wenn eine Lehrkraft gerade einen sehr guten Text gelesen hat, fällt die Bewertung des nachfolgenden Textes oft zu schlecht aus. Ein anderer Effekt ist, dass oft die sprachliche Richtigkeit oder Falschheit das Globalurteil überlagert. Bei orthografischen oder grammatikalischen Mängeln wird der Text insgesamt zu schlecht bewertet. Das passiert der Maschine nicht, sie kennt keine Kontrasteffekte und lässt sich auch nicht blenden, wenn hier und da ein Komma fehlt. Sie bleibt »objektiv«.
Wie gehen Sie bei Ihren Forschungsarbeiten vor, testen Sie das mit Versuchsklassen aus?
Genau. Wir gehen mit einem Satz Laptops in die Klassen. Derzeit arbeiten wir intensiv an den Aufgaben zum naturwissenschaftlichen Argumentieren zu Fragestellungen wie etwa »Sollte man Atomkraftwerke laufen lassen oder nicht?« Dazu bekommen die Schülerinnen und Schüler Arbeitsmaterial. Wenn die Schülerinnen und Schüler die Argumentation fertig geschrieben haben, wird der Text durch den Algorithmus geprüft. Dann kommt die Rückmeldung, was schon gut gemacht ist, wo vielleicht noch ein oder zwei Begründungen fehlen. Oder auch, wo noch mal geprüft werden sollte, ob die Begründung die Aussage tatsächlich stützt. Die Lehrkräfte haben ein Dashboard und können nach der ersten Runde sehen, bei wie vielen Schülerinnen und Schülern noch Probleme bestehen. Das gleiche passiert nach der Überarbeitung. Die Lehrerinnen und Lehrer bekommen sofort visualisiert, wie der Arbeitsstand der Klasse aussieht, ohne dass sie durch die Reihen laufen und allen über die Schulter schauen müssen. Sie können diese Zeit besser zu nutzen, um bei denen, die Probleme haben, spezifisch zu intervenieren.
Könnten diese digital codierten Klassenarbeiten und formativen Assessments in Zeiten des Lehrermangels Kapazitäten freisetzen, die dringend gebraucht werden?
In der letzten Stellungnahme der Ständigen Wissenschaftlichen Kommission zum Thema Lehrkräftemangel haben wir betont, dass wir bei älteren Schülerinnen und Schülern viel Potenzial beim selbstregulierten und hybriden Lernen sehen. Da helfen solche Systeme, die automatisiert Rückmeldung geben, sehr. Gleichzeitig ist es bei solchen Formaten wichtig, dass die Lehrkraft weiß, dass die Schülerinnen und Schüler tatsächlich an der Aufgabe arbeiten und nicht gerade etwas ganz anderes machen. Das Monitoring durch die Lehrkraft kann so gewährleistet sein, selbst wenn sie nicht vor Ort ist. Das ist auch eine große Chance für mehr Eigenständigkeit des Lernens.
Welchen Effekt hat die Schnelligkeit der Rückmeldung durch die Maschine?
Ich frage Lehrkräfte oft, ob sie den Schülerinnen und Schülern Rückmeldung zu den Hausaufgaben geben. Meist lautet die Antwort: Nein. Bestenfalls kontrollieren sie, ob die Hausaufgaben überhaupt erledigt wurden. Um genauer reinzuschauen, fehlt die Zeit. Die Digitalisierung schafft hier ganz neue Möglichkeiten. Die Schülerinnen und Schüler bekommen unmittelbar die Rückmeldung, und wir wissen aus der Forschung, je zeitnäher die Rückmeldung zu einem Arbeitsergebnis kommt, desto lernförderlicher ist sie. Und nicht zu vergessen: Auch die Lehrkraft bekommt für ihre eigene Arbeit schneller eine Rückmeldung.
Was denken Sie, wie lange es noch dauert, bis diese digitalen textbasierten Klassenarbeiten in der Fläche eingesetzt werden?
Ich denke, dass es eine Frage von zwei bis drei Jahren ist, bis diese Tools zumindest in bestimmten Fächern in der Sekundarstufe I und II eingesetzt werden können... Den vollständigen Artikel finden Sie auf deutsches-schulportal.de.
Quelle: Deutsches Schulportal, Autorin: Florentine Anders