Betrug, Verbote oder Nutzung: Was GPTChat für die Schule bedeutet

Ein Blogpost über die Frage, wie Programme, die automatisch Texte generieren, in der Schule benutzt werden können, muss damit beginnen, dass ich ihn von einem solchen Programm schreiben lasse. Das habe ich gemacht (im Text stehen Teile kursiv, weil die Darstellung den Gender-Stern als Markdown interpretiert):

Das verwendete Programm ist die Chat-Version von GPT-3, zugänglich unter chat.openai.com. Das Beispiel zeigt, dass jede Form von Schreibaufgabe automatisiert werden kann. Was bedeutet das für die Schule? Die KI formuliert eine verbreitete Meinung:

Um Betrug in diesem Zusammenhang zu vermeiden, ist es wichtig, dass Schüler*innen verstehen, dass die Nutzung von Schreibhilfen-Programmen unfair und unredlich ist.

Wird die Benutzung generell als unredlich angesehen, dann führt das zu zwei Problemen:

  1. Wie erkennt man, ob ein Tool verwendet wurde?
  2. Wie geht man mit Verstößen gegen das Verbot um?

Bereits heute gibt es Werkzeuge, die Voraussagen machen, ob ein bestimmter Text durch eine KI erzeugt wurde (die Voraussagen sind für deutsche Texte eher schlecht). Wir können aber damit rechnen, dass ähnlich wie bei Plagiaten ein Katz-und-Maus-Spiel beginnt: (Hoch-)Schulen werden Detektoren beschaffen, Texterzeugungsprogramme werden so programmiert, dass die Erkennung umgehen können etc. Erwischt werden dann die Lernenden, die dilettantisch arbeiten.

Der Umgang mit diesen Schüler*innen wird dem mit Plagiaten gleichen: schlechte Bewertungen, disziplinarische Maßnahmen.

Generell wird sich ein ungutes Gefühl einschleichen, ein permanenter Verdacht gegen alle guten Texten. Sobald Schüler*innen Erwartungen übertreffen, wird jemand vermuten, dass hier eine KI im Einsatz gewesen sei.

Aber es gibt eine Alternative, die Ben Thompson eindrücklich beschrieben hat. Er geht von der Einsicht aus, dass KI-Tools viele Fehler machen, und schlägt dann diesen Umgang mit Hausaufgaben vor:

Imagine that a school acquires an AI software suite that students are expected to use for their answers […]; every answer that is generated is recorded so that teachers can instantly ascertain that students didn’t use a different system. Moreover, instead of futilely demanding that students write essays themselves, teachers insist on AI. Here’s the thing, though: the system will frequently give the wrong answers (and not just on accident — wrong answers will be often pushed out on purpose); the real skill in the homework assignment will be in verifying the answers the system churns out — learning how to be a verifier and an editor, instead of a regurgitator. […]

In the case of AI, don’t ban it for students — or anyone else for that matter; leverage it to create an educational model that starts with the assumption that content is free and the real skill is editing it into something true or beautiful; only then will it be valuable and reliable.

AI Homework

Wer also Schüler*innen an Aufgabenstellungen arbeiten lässt, sollte keine Angst davor haben, dass sie GPTChat dafür nutzen – sondern sie einladen, es tatsächlich auch zu tun. Die wahre Arbeit beginnt erst danach. KI-Tools sind eine Realität, Menschen nutzen sie für ihre Arbeit. Schüler*innen müssen lernen, kompetent damit umzugehen – nicht Verbote zu umgehen. Auch dabei würden sie lernen, wie die Tools funktionieren – nur würden diejenigen bestraft, die es noch nicht verstanden haben… 

(Vor ein paar Wochen habe ich bereits ausführlich diskutiert, was GPT-3 für den Schreibunterricht bedeutet.)

Das E-Mail-Problem von Schulen lösen – in 3 Schritten

Lehrpersonen erhalten an vielen Schulen in einem Ausmaß E-Mails, dass ihre Lektüre und Bearbeitung zu einer Belastung geworden ist. Drei Schritte können helfen, das Problem einzudämmen. (Ich habe vor sieben Jahren schon darüber geschrieben, viel hat sich nicht verändert.)

  1. Der Schulleitung-Newsletter
    Lehrpersonen wie auch die Schulleitung schreiben keine Mails ans ganze Kollegium mehr. Alle Informationen, welche die ganze Schule betreffen, werden gesammelt und einmal pro Woche über einen Newsletter verschickt.
    Wer sich nicht daran hält, wird ermahnt. Die Regel muss eingeführt, aber auch durchgesetzt werden.
  2. Vorgänge automatisieren
    Regelmäßige Abläufe wie Absenzenerfassung, Notenerhebung, Raumreservationen, Vertretungen etc. müssen in Tools automatisiert werden. Sie sollten nur in Ausnahmen zu Mails führen, sondern in der Regel zu sauber abgelegten Daten, die alle dann beziehen können, wenn sie für sie relevant sind.
    Kollaborative Dokumente sind ebenfalls gute Mittel, um Zusammenarbeit ohne E-Mails möglich zu machen. Auch Lernmanagementsysteme erlauben, Informationen so zu hinterlegen, dass sie abgerufen werden können, statt über eine Push-E-Mail mitgeteilt zu werden.
  3. Bessere E-Mails schreiben
    Gute E-Mails sind
    a) kurz (three.sentenc.es)
    b) nur an die Personen adressiert, die davon betroffen sind
    c) auch im CC, dort stehen nicht Menschen, die einfach zugucken sollen, sondern wirklich Betroffene
    d) hilfreich, d.h. alle Arbeit ist erledigt, die vor der Mail erledigt werden kann (perfid sind Mails, die geschrieben werden, um anderen Arbeit zu übergeben, die man selbst machen könnte)
    e) konkret, d.h. es ist denen, welche die Mails bekommen, klar, welche Art von Reaktion erwartet wird.
Illustration einer Person, die E-Mails schreibt

Bild: Dall-E 2, »an illustration of a person reading e-mail, digital art«

Was Schulentwicklung mit dem Ethos von Graffiti zu tun hat

In Zürich gibt es Wände, an denen Sprayer*innen legal Graffiti anbringen dürfen. Dabei gibt es zwei Grundregeln:

  1. Überspraye ein Kunstwerk nur mit etwas Schönerem.
  2. Überspraye nichts, was mit dem FC Zürich zu tun hat, weil du sonst Ärger bekommen könntest.

In einem Gespräch mit einer Kollegin ist mir heute bewusst geworden, dass Schulentwicklung genau diesen Regeln folgt. Sie ersetzt etablierte Praktiken an einer Schule durch neue. Das gelingt dann, wenn

  1. Die neuen Praktiken besser sind als die alten.
  2. Niemand verärgert wird, der oder die nicht damit umgehen kann, wenn sich Gewohnheiten verändern.

Klingt trivialer als es ist: Wer eine Schule verändern will, muss sich nicht nur besser machen, sondern auch ihre teilweise versteckten Traditionen und Hierarchien verstehen. Es reicht nicht nur, gute Vorschläge zu machen – wer sie umsetzen will, muss verstehen, was Veränderungen für Schlüsselpersonen bedeuten.

Wer ein FCZ-Graffiti übersprayt, kann nicht darauf verweisen, wie schön das neue Kunstwerk ist. Die Auseinandersetzung erfolgt weder über Ästhetik noch über Vernunft, sondern wird durch die Regeln von eingefleischten Fans bestimmt. Diese gibt es auch an Schulen.

Prüfungslernen: Begriff gesucht!

Die Prüfungskultur vieler Schulen führt dazu, dass Lernende sich kurzfristig auf Arbeiten vorbereiten, schnell Auswendiggelerntes niederschreiben und es dann schnell wieder vergessen. Diese Praxis wird von Schüler*innen »Lernen« genannt, Lehrpersonen verwenden andere Begriffe, um sich davon negativ abzugrenzen: Häufig ist die Rede von »Bulimie«-Lernen, bei dem Stoff »reingefressen« und »rausgekotzt« wird.

Krankheitsbilder sind keine guten Begriffsspender. Deshalb passt auch die englische Alternative nicht: »binge learning« ist an »binge eating« angelehnt, also wird krankhaftes Lernen wiederum mit anderen Krankheitsbildern in Verbindung gebracht.

Was tun? Ich habe rumgefragt, auf Twitter und Mastodon. Hier die Liste mit Vorschlägen – ich bedanke mich bei allen. Unten verkünde ich dann meinen Favoriten.

  1. Büffel-Lernen
  2. Eintrichtern, Nürnberger Trichter
  3. Fast-Food-Lernen
  4. Optimierung-Lernen
  5. Wegwerf-Lernen
  6. Luftballon-Lernen (mit aller Kraft aufblasen, dann macht es pfffft…)
  7. Strohfeuer-Lernen
  8. Durchlauferhitzen
  9. Koma-Lernen
  10. Marathon-Lernen
  11. Last-Minute-Lernen
  12. geballtes Lernen (vs. gestaffeltes Lernen)
  13. blockiertes Lernen
  14. Stoff-Hamstern
  15. neoliberales Lernen
  16. temporäres Lernen
  17. Kurzzeitlernen
  18. Prüfungslernen
  19. Learning to the test
  20. Ketchup-Lernen
  21. Rush-Learning
  22. Eichhörnchen-Methode
  23. Cramming
  24. Zombie-Learning
  25. Kopf-Stopfen

Ich finde »Cramming« überzeugend, weil das Englisch sehr verbreitet ist, auch mit negativer Bewertung. »temporäres/geballtes Prüfungslernen« passt für mich auch, je nach Kontext gerne auch die Tiermetapher »Hamsterlernen« oder »Eichhörnchenlernen« mit Adjektiv, oder dann »Strohfeuerlernen«. Hätte nicht gedacht, dass so schnell so viele Begriffe zusammenkommen – danke sehr!

Illustration: Dalle-E 2

interaktionsorientiertes Schreiben – ein Problem mit Social-Media-Schreibprojekten

Lange Zeit ging ich im Deutschunterricht davon aus, dass Schreibprojekte in Social-Media-Umgebungen aus zwei Gründen besonders sinnvoll seien: Erstens sind nahe am Schreiballtag von Jugendlichen, die viele private Schreibaufgaben auf digitalen Plattformen erledigen. Zweitens führen sie dazu, dass eine Klasse über gemeinsame praktische Erfahrungen mit Social Media verfügt, die dann reflektiert werden können.

Vom zweiten Vorteil bin ich weiter überzeugt. Am ersten zweifle ich mittlerweile. Das hat einen einfachen Grund: junge Menschen nutzen digitale Plattformen primär für interaktionsorientiertes Schreiben (Storrer). Das unten abgebildete Instagram-Profil ist für Jugendliche in Zürich nicht untypisch: es zeigt keine Beiträge und Stories. Genutzt wird es, um andere Beiträge zu liken und zu chatten – kurz: um Beziehungen zu gestalten.

Wenn ich nun im Unterricht ein Projekt anbiete, in dessen Rahmen wir ein literarisches Werk als Instagram-Profil gestalten, dann nutze ich Instagram als produktorientierte Plattform. Ich erwarte, dass schöne Beiträge mit Zitaten, passenden Bildern etc. gepostet werden. Diese Nutzung von Instagram ist zwar möglich, aber nicht die, welche bei Jugendlichen vorherrscht.

Deshalb ist die Nähe zur Alltagspraxis von Jugendlichen nicht direkt gegeben. Obwohl eine Plattform genutzt wird, auf der Jugendliche viel Zeit verbringen, orientiert sich ihre Nutzung an traditionellen Vorstellungen von Schreibunterricht. Die Flüchtigkeit und Dynamik von interaktionsorientierten Schreibprozessen lässt sich schlecht im Unterricht greifbar machen.

Das bedeutet nicht, dass es hier keine wichtigen Kompetenzen gäbe, die in der Schule aufgebaut werden können. Es gelingt wohl einfach nicht mit klassischen Social-Media-Projekten. Oder umgekehrt: Auch bei schulischen Social-Media-Projekten können Schüler*innen viel lernen – aber nicht, weil sie sich nahe bei ihrer alltäglichen Mediennutzung befinden würden.

Warum Smartphones wie Ketchup sind – die Wohlfühl-Theorie

Malcolm Gladwell hat vor Jahren eine Ketchup-Theorie entwickelt:

Kinder im Alter von zwei oder drei Jahren neigen dazu, neue Geschmäcker abzulehnen. Aus evolutionsgeschichtlicher Sicht ist dieses Verhalten durchaus sinnvoll, denn in der Frühgeschichte der Menschheit begannen Kinder in diesem Alter damit, selbst Essen zu sammeln; wer sich nicht an das Bekannte und Vertraute hielt, hätte wohl nicht überlebt. Unser Dreijähriger hatte vermutlich etwas Verdächtiges auf dem Teller – vielleicht Thunfisch oder Rosenkohl –, und er wollte das Fremde vertraut machen, indem er seinen Geschmack unterdrückte. Also griff er nach dem Ketchup, denn von allen Würzsoßen ist nur dieser in der Lage, süß, sauer, salzig, bitter und umami zu liefern, alles auf einmal.

Zitiert nach »Was der Hund sah«, Campus 2009

»Das Fremde vertraut machen« – das ist das, was Ketchup auf dem Teller eines Kindes leistet. Dasselbe machen Smartphones: im öffentlichen Verkehr, in der Schule, in seltsamen sozialen Situationen. Menschen begegnen Fremden, sind unsicher oder emotional aus dem Gleichgewicht: Ihre Smartphones funktionieren wie Ketchup. Sie schaffen einen berechenbaren, bekannten Raum. TikTok-Swipen, ein mobiles Spiel, ein WhatsApp-Chat – das reduziert die Fremdheit und unterdrückt den »Geschmack« der Umgebung.

Diese Sichtweise kann erklären, weshalb viele Menschen unwillkürlich zum Smartphone greifen. Andere wahrzunehmen und auf sie einzugehen, ist auch eine Belastung, nicht immer eine Bereicherung. Sich mit vielen anderen Menschen zusammen irgendwo aufzuhalten, kann eine Überforderung sein – genau so wie ein Essen, das ein Kind nicht kennt und nicht mag.

Illustration: Dall-E 2

Was kommt nach Twitter?

Ich nutze Twitter länger als 13 Jahre. Seit rund 10 Jahren ist es für mich die zentrale Schnittstelle im Netz. Nach der Übernahme durch Elon Musk fühlt es sich so an, als könnte Twitter entweder insgesamt verschwinden oder sich in seiner Funktionalität so verwandeln, dass es sich nicht mehr so nutzen lässt, wie mir das wichtig wäre.

Wofür nutze ich Twitter?

  1. Information und News
    Twitter hat für mich das Lesen von Zeitungen ersetzt, weil ich direkt über mein Netzwerk Zugang zu Nachrichten und wichtigen Informationen erhalten habe.
  2. Austausch
    Öffentlich und in Chats (Direct Messages) diskutiere ich mit Fachpersonen, Freunden und anderen Interessierten über Themen, die mich beruflich und privat beschäftigen.
  3. Netzwerk
    Ich lerne Menschen kennen, die sich durch die Auseinandersetzung mit bestimmten Themen auszeichnen, folge ihnen und knüpfe durch den Austausch (2.) Beziehungen. Auf Twitter sind praktisch in jedem Fachgebiet die kompetentesten Personen direkt vertreten.
  4. Bühne
    Meine Blogposts, Videos, Materialien etc. kann ich auf Twitter verbreiten.
  5. Küchentisch der WG für Zigarettenpausen
    Viele meiner Tweets sind momentane Gedanken, flüchtige Notizen, die manchmal im Meer der Kurznachrichten untergehen, manchmal Auftrieb erhalten und selten wie eine vergessene Flaschenpost an eine Küste getrieben werden. Oft entstehen kurze Gespräche, die für mich eine Art Entspannung sind – weil sie mich aus dem Alltag mit Menschen verbinden, die auch gerade auf Twitter plaudern.
  6. (Doom)Scrolling
    Twitter ist auch einfach Konsum, Unterhaltung. Man erhält Einblick in private Gedanken, sieht tolle Fotos und Videos und kann Menschen dabei zuschauen, wie sie streiten, wie sie sich freuen, wie sie leben.

Der Ersatz für Twitter funktioniert aus zwei Gründen nun nicht so leicht, wie man sich das vorstellen könnte: Erstens muss ich jede dieser Funktionen ersetzen können und zweitens das Netzwerk mit diesen Funktionen verbinden können. Twitter funktioniert so gut, weil ich den richtigen Konten folge (die jahrelang ausgesucht habe) und weil mir die richtigen Konten folgen (die mich ausgesucht haben). Vergleichbar ist das mit WhatsApp: Seit WhatsApp nicht mehr unhinterfragter Standard ist, muss man dort weiterhin mitlesen, gleichzeitig aber Menschen über SMS, Signal, Threema oder Telegram anschreiben und auf diesen Apps auch checken, ob man Nachrichten erhalten hat.

So ist auch mit Twitter – es bleibt bestehen, wird aber gleichzeitig auch abgelöst:

  • Mastodon wird der Küchentisch der WG sein, wo man versucht, mit anderen Interessierten ins Gespräch zu kommen.
  • Newsletter werden den Informations- und Newsaspekt von Twitter ersetzen (bislang habe ich wenige Newsletter direkt gelesen, weil die auf Twitter ohnehin verlinkt wurden). Meinen Newsletter werde ich weiter bespielen und ihn dazu benutzen, meine Beiträge auszuspielen.
  • Austausch wird sich in die Instagram-DMs und in Chat-Tools verlagern.
  • Das Netzwerk wird sich zersplittern, Teile werden über Twitter, Facebook, Linkedin, Instagram und Mastodon greifbar sein, aber nie mehr so systematisch wie bei Twitter.
  • Mein Scrolling hat sich in letzter Zeit schon stark zu Reddit verlagert, das wird wohl so bleiben; ergänzt durch ein paar News-Plattformen.

Noch eine Bemerkung zu Mastodon: Viele denken heute, die App könnte Twitter direkt ersetzt. Für mich ist das aber nicht denkbar, weil Twitter durch eine Mischung von Zugänglichkeit, Algorithmizität und Breite dazu geführt hat, dass sehr viele Akteure auf Twitter interagieren konnten. Mastodon enthält viel mehr Schwellen, verlangt von Nutzenden mehr.

Positivistische Vermessung des Unterrichts – eine Kritik

Die Vorstellung, Unterricht müsse primär aufgrund von ausgewerteten Daten evaluiert und optimiert werden, ist nicht erst in letzter Zeit aufgekommen. Sie gehört zur Geschichte eines positivistischen Wissenschaftsverständnisses, das davon ausgeht, mit Messungen Erkenntnisse gewinnen zu können, um dann gesellschaftliche Prozesse daran auszurichten – z.B. Schule und Unterricht.

In den letzten Monaten mehren sich Stimmen, die eine Art Revival dieses Wissenschaftsverständnisses fordern. Exemplarisch dafür ist für mich der Psychologe Benedikt Wisniewski, der auf Twitter und in Podcasts Lehrpersonen psychologisches Grundlagenwissen vermittelt – immer mit dem Anspruch, eine datenbezogene Vorstellung von Psychologie sei geeignet, Lernprozesse zu verstehen und dem Design von Lernumgebungen eine Orientierung zu geben. (Die Orientierung an gemessenen Daten wird oft »empirisch« genannt, obwohl dieser Begriff unscharf ist und in Diskussionen oft dazu führt, dass Missverständnisse entstehen.)

Der Erziehungswissenschaftler David Scheer hat die zentrale Vorstellung der datenbezogenen Erkenntnisgewinnung bei der Evaluation von Unterricht auf eine einfache Formel gebracht:

Löst Maßnahme/Methode X das Problem Y?

David Scheer, Twitter

Denken wir z.B. darüber nach, wie gut Schüler*innen in der Schweiz lesen können, dann können wir das messen. Z.B. mit dem Pisa-Test. Wir erhalten dann beispielsweise diese Tabelle aus dem Pisa Bericht 2018.

Nun können Maßnahmen eingeleitet werden, um z.B. den Anteil leseschwacher Jugendlicher zu senken oder den Anteil lesestarker Jugendlicher zu erhöhen – indem z.B. der finnische respektive der kanadische Leseunterricht imitiert wird. Bei der nächsten Pisa-Untersuchung (die schon erfolgt, aber noch nicht ausgewertet ist), kann dann überprüft werden, ob die Maßnahmen erfolgreich waren oder nicht.

Wo liegt nun das Problem mit dieser Sichtweise bzw. diesem Vorgehen?

  1. Wenn wir davon ausgehen, dass Messungen präzise erfolgen (was nicht immer der Fall ist), dann fokussieren sie auf diejenigen Anteile von Prozessen, die sich (leicht) messen lassen. Im vorliegenden Fall kann aus den gemessenen Daten nicht abgeleitet werden, wie gern Jugendliche lesen, wie gut sie darin sind, audiovisuelle Texte zu verstehen, wie gut sie Informationen aus mündlichen Gesprächen verarbeiten können etc. Die Messung ignoriert viele Aspekte, auch weil sie teilweise schwerer zu messen sind (oder es gar nicht möglich ist, relevante Daten zu erheben).
  2. Messungen schaffen Fehlanreize. Wenn es darum geht, ein Problem tatsächlich zu lösen, dann führt die Messung dieser Problemlösung zu vielen Aktivitäten, die nur der Anschein erwecken, das Problem sei gelöst. In der Schule ist das z.B. das Teaching-to-the-Test-Phänomen.
  3. Unterricht ist sinnstiftende Beziehungsarbeit. Effiziente Maßnahmen – die sich bei Messungen bewährt haben – können sowohl den Sinn wie auch die Beziehungen stören. Lehrpersonen müssen hier Abwägungen treffen. Vielleicht ist das Selbstvertrauen des leseschwachen Viertels in einer Klasse gerade wichtiger als ihre Lesekompetenz.
  4. Wissenschaft umfasst viele Methoden, auch schon nur in der Beobachtung und Auswertung von Unterricht. Die Erhebung und Verarbeitung von Daten ist eine von vielen Methoden. Sie zur primären Methoden zu erklären, ist falsch und anmaßend. Es ist eine naturwissenschaftliche Methode, deren Übertragung auf gesellschaftliche Prozesse wissenschaftshistorisch nur bedingt erfolgreich war. Das hängt mit den oben erwähnten Punkten zusammen.
  5. Daten werden in größeren Kontexten interpretiert, aber in kleinen Kontexten erhoben. Ein schönes Beispiel ist eine Studie von Steinig und Betzel, die untersucht hat, wie gut Grundschüler*innen schreiben. Dazu wurden Texte von 1972, 2002 und 2012 verglichen. In der Interpretation wird deutlich, dass sich in den 40 Jahren Medien und Schreibprozesse so stark verändert haben, dass ein Vergleich gar nicht möglich ist. Schreibkompetenz hat sich gewandelt. Schon nur die Versuchsanordnung ist eine ganz andere: Kam in den 1970er-Jahren eine externe Fachperson in den Unterricht, haben Schüler*innen die Situation anders interpretiert als 2012. Die größeren Kontexte müssen mitgedacht werden – sie können nicht durch Messungen ermittelt werden. (Ein ähnliches Problem taucht auf, wenn große Meta-Studien wie die Hattie-Studie zu sehr abstraken Erkenntnissen führen, die dann auf konkrete Situationen angewandt werden. Dabei werden Daten aus chinesischen Grundschulen plötzlich auf Schweizer Gymnasien übertragen, womit sie nichts zu tun haben.)

Denken wir also über Unterricht nach, dann sind Erkenntnisse aus Daten ein wichtiges Element. Dieses Element muss berücksichtigt werden – aber eingebettet in alle anderen Formen des wissenschaftlichen und praktischen Nachdenkens über Unterricht. Und es muss kritisch reflektiert werden: Nicht abgewertet, nicht ausgeblendet, sondern im Sinne einer rationalen Prüfung, ob diese Erkenntnisse wirklich dabei helfen, ein vorliegendes Problem zu bearbeiten.

Wer ein dogmatisches Loblied auf Datenauswertung singt und dabei alle, die eine ganzheitliche Perspektive vertreten, abwertet, leistet der Wissenschaft einen Bärendienst. Nicht nur, weil dabei ein seltsames und falsches Bild von Wissenschaft entsteht, sondern weil eine Front eröffnet wird, die unnötig ist: Lehrpersonen und an Didaktik interessierte Menschen lehnen datengestützte Erkenntnisse nicht ab. Aber sie müssen in ihrer vielfältigen Tätigkeit darüber diskutieren können.

Edit: 1. bei der Liste der Kriterien am 27. Oktober präzisiert, vgl. hier.

Grundlagenartikel: Umgang mit KI-Programmen im Schreibunterricht

In den letzten Monaten ist es immer einfacher geworden, Zugang zu Programmen erhalten, die automatisiert Texte schreiben. Das führt zur grundsätzlichen Frage, wie ein didaktisch sinnvoller Umgang mit dieser Technologie im Schreibunterricht aussieht. Der folgende Text ist eine Einführung ins Thema und gibt auf verschiedenen Ebenen der Schreibdidaktik Möglichkeiten zur Einordnung von KI-Programmen. Der Beitrag wird laufend überarbeitet und erweitert.

Was sind und was können KI-Schreibprogramme?

Grundsätzlich handelt es sich um Algorithmen, die Textmuster imitieren. Übers Internet können sie auf eine enorme Menge von Texten zugreifen und so abgleichen, ob der Text, den sie produzieren, den wesentlichen Merkmalen von Vergleichstexten entspricht. Die Programme folgen nicht einem festgelegten Ablauf (niemand hat einprogrammiert, wie sie schreiben), sondern sie lernen beim Schreiben besser zu schreiben. Deshalb spricht man in ihrem Zusammenhang von »künstlicher Intelligenz«, weil sie Muster imitieren und dabei dieses Verfahren gleichzeitig optimieren.

Wir können uns exemplarisch an GPT-3 und an DeepL orientieren – andere und künftige Programme werden ähnlichen Prinzipien folgen. Beide Tools haben eine sehr einfache Oberfläche. Bei GPT-3 erscheint ein leeres Fenster, in das ich eine Anweisung in einer beliebigen Sprache schreibe. Diese Anweisung interpretiert GPT-3, indem es einen Text verfasst:

DeepL bietet zwei Fenster an: Ins eine schreibe (oder kopiere) ich einen Text, der dann in eine Zielsprache übersetzt wird.

Die Qualität der Texte ist grundsätzlich hoch. Für nicht-persönliche Alltagstexte funktionieren die Programme schnell und zuverlässig. Zudem lernen sie laufend dazu: Je mehr sie benutzt werden und je mehr Texte digital abrufbar sind, desto stärker werden die Tools.

Wir können also zusammenfassen: KI-Schreibprogramme können standardisierte Schreibaufgaben automatisiert bearbeiten und für den Alltag brauchbare Texte generieren.

Schwächen von KI-Schreibprogrammen

Gleichwohl haben die Algorithmen Beschränkungen:

  1. Die Programme verfügen über kein außersprachliches Kontextwissen. Sie wissen nicht, wie ich in der Regel schreibe, wo ich wohne, wen ich kenne etc.
  2. Kohärenz und Einheitlichkeit sind bei längeren Texten oft nicht gewährleistet.
  3. Umgang mit Fachbegriffen zuweilen unsauber, sowohl DeepL als auch GPT-3 schreiben mit Standard-Einstellungen keine brauchbare Fachsprache.
  4. Bei mehrdeutigen Wendungen muss sich das Programm für eine Version entscheiden, die zuweilen falsch ist.

(Eine genauere Diskussion der Funktionsweise von GPT-3 findet sich in diesem Aufsatz.)

Was bedeutet das für Lernende und Schreibkompetenz?

Wenn nun eine Alltags- oder Unterrichtsaufgabe darin besteht, einen Text zu verfassen oder zu übersetzen, dann können Lernende grundsätzlich auf diese Tools zurückgreifen. Ob sie das getan haben oder nicht, lässt sich kaum überprüfen (GPT-3 liefert immer wieder neue Texte zu denselben Inputs, DeepL-Übersetzungen verändern sich von Tag zu Tag).

Die Tools werden wie eine Stahlfeder, ein Radiergummi oder ein Textverarbeitungsprogramm selbstverständlicher Bestandteil von Schreibprozessen werden. Wer kompetent schreibt, nutzt sie. Schreiben ist und war nie technologiefrei, sondern ist ein Prozess, der verfügbare Technologie einbezieht.

Das Ende der Aufsatz- und Übersetzungsdidaktik

Fachdidaktisch sind Aufsätze zu kontextlosen Fragestellungen (»Was ist Mut?«) und Übersetzungen seit Jahrzehnten überholt. Deshalb ist es keine grundsätzliche Katastrophe für den Sprachunterricht, dass diese Algorithmen nun in dieser Qualität offen verfügbar sind. Etwas polemisch könnte man festhalten, dass Algorithmen nur Schreibaufgaben unterminieren, die an sich schon problematisch sind. Die Möglichkeit, im oder außerhalb des Unterrichts auf Programme GPT-3 zugreifen zu können, beendet nun faktisch die Arbeit mit klassischen Aufsatzthemen.

Orientiert man sich aber an prozessorientierten Kompetenzmodellen des Schreibens (mehr dazu unten), dann sind GPT-3 und DeepL nichts als Werkzeuge, die Schreibaufgaben erleichtern können.

Da im Unterrichtsalltag oft auch an Teilkompetenzen im Fokus stehen, kann es sinnvoll sein, kurze Texte schreiben und übersetzen zu lassen. Die Versuchung, hier mit Tools Abkürzungen zu nehmen, ist bei Schüler*innen sicher vorhanden. Damit sabotieren sie ihre eigenen Lernprozesse genauso, wie wenn sie bei Nachbar*innen abschreiben, bei den Lösungen nachsehen, die Aufgabe von der älteren Schwester erledigen lassen etc. Die Lösung ist hier nicht Überwachung oder Bestrafung, sondern die Etablierung einer konstruktiven Lernkultur.

Unterrichts- und Lernkultur

Grundsätzlich ist davon auszugehen, dass einige Schüler*innen diese neueren Tools genauso nutzen werden, wie sie Texte aus dem Internet kopiert und abgeschrieben haben. Damit zeigt sich, dass ein offener, vertrauensvoller und auch kritischer Umgang mit Technologie in einem guten Unterricht zentral ist.

Das bedingt eine Unterrichtskultur, in der Schüler*innen lernen wollen und lernen können. Werden sie mit Aufgaben unter Druck gesetzt, beginnen sie eher heimlich einen Text von GPT-3 schreiben lassen, als wenn sie verstehen, wie sie ihre Schreibkompetenz entwickeln können. Stehen Noten im Vordergrund der Schule, dann werden Schüler*innen versuchen, mit unbekannten oder auch verbotenen Tools bessere Bewertungen zu erhalten.

So läuft es an deutschsprachigen Schulen nicht ganz – könnte es aber… 

KI-Tools als Teil des Schreibprozesses

Guter Schreibunterricht orientiert sich an (materialgestützten) Prozessen: Eine Schreibaufgabe wird geplant, orientiert sich an geeigneten Materialien (Notizen, Fachtexten, Vorlagen etc.), entworfen, überarbeitet, mit Feedback versehen, reflektiert etc. KI-Programme bedeuten nun eigentlich nur, dass ein neuer Prozess hinzukommt. Oder mehrere Prozesse.

Becker-Mrotzeck und Schindler, 2007

Betrachtet man das oben abgebildete Modell, so wird deutlich, dass ein Tool wie GPT-3 auf verschiedenen Ebenen eine Rolle spielt:

  1. Medium: Wird mit einem Computer geschrieben, so stellt das hohe Anforderungen an das Wissen, wie entsprechende Programme funktionieren. Algorithmen werden zunehmend in Textverarbeitungsprogramme integriert, so dass Word oder GoogleDocs Funktionen enthalten, die mit algorithmischer Sprachproduktion zusammenhängen.
  2. Prüfverfahren: Schreibende müssen nicht eigene Formulierungen prüfen, sondern maschinell generierte – semantisch, syntaktisch und textbezogen.
  3. Kombination von Texten: Von KI-Tools generierte Texte müssen mit Textvorlagen und eigenen Textteilen kombiniert werden. Dabei müssen Orthografie und Lexik vereinheitlicht werden, Bezüge hergestellt werden etc.
    (Interessant ist hier dieses Beispiel für eine Facharbeit, die mit GPT-3 verfasst wurde.)
  4. Kombination von automatisierten und nicht-automatisierten Prozessen: KI-Tools können für verschiedene Schreibaufgaben eingesetzt werden. Beispielsweise kann die Ideenfindung für einen Text über nicht-maschinelles Brainstorming erfolgen, über einen Austausch in einem Gespräch mit anderen Personen oder durch einen ersten Durchgang mit GPT-3. Dasselbe gilt für die Überarbeitung von Texten. (DeepL kann z.B. alle Kommafehler entfernen.)
  5. Metakognition: All diese Verwendungskontexte führen zu umfangreichen Reflexionen darüber, wie Schreiben funktioniert, wie es der schreibenden Person leicht fällt, wie wirksame Passagen entstehen. Die Verwendung von KI-Tools dürfte wie die Wahl von Schreibinstrumenten etc. höchst subjektiven Bedingungen unterworfen sein. Zu verstehen, wie automatisierbare und subjektiv bedeutsame Prozesse verbunden sind, ist eine komplexe Aufgabe für die Reflexion, die beim Schreiben mit Rückmeldungen von Leser*innen verbunden werden sollte.

Die Verfügbarkeit von KI-Tools zeigt, dass zunächst die Komplexität steigt. Gleichzeitig werden andere Prozesse weniger wichtig: Z.B. sollte Orthografie mittelfristig ein vernachlässigbares Problem darstellen, weil die Automatisierung hier relativ einfach korrekte Texte herstellen kann (vgl. diesen Test automatisierter Schreibtools).

KI-Tools im Unterricht

Ausgehend von diesen Grundlagen und Einsichten lässt sich nun konkret formulieren, was diese Werkzeuge für den Unterricht bedeuten. Aus meiner Sicht ist das die produktivere Frage, als von einer Disruption des Bestehenden auszugehen, auf die dann reagiert werden muss.

Doris Wessels formuliert aus dieser Perspektive etwa Handlungsempfehlungen, die sich auf bestehende Schreib- und Prüfungslogiken (an Hochschulen) beziehen. U.a. handelt es sich um folgende Tipps, die Urs Henning zusammengefasst hat:

  • projektorientierte, praxisrelevante Aufgabenstellungen ausweiten
  • einzigartige und singuläre Fragestellungen präferieren
  • den Anteil mündlicher Prüfungen im Vergleich mit schriftlichen Arbeiten erhöhen
  • Aufklärungsarbeit und Weiterbildung für Lehrende forcieren
  • einen Verhaltens- und Ehrenkodex fest in der Prüfungsordnung verankern

Diese Empfehlungen sind aktuell sicher alle korrekt, helfen aber nicht dabei, Lernenden dabei zu helfen, kompetent mit KI-Werkzeugen und Schreibaufgaben umzugehen.

Deshalb formuliere ich fünf Lernziele, an denen sich Sprachunterricht orientieren kann.

Lernziel 1: Verständnis und Beherrschung

Lernende sollten KI-Tools kompetent nutzen können: Das beginnt beim Zugang, für den oft Accounts nötig sind und teilweise englischsprachige Menus erschlossen werden müssen und führt über die konkrete Bedienung bis zum Umgang mit den Ergebnissen.

Gleichzeitig brauchen sie ein rudimentäres Verständnis dessen, was im Hintergrund abläuft. Hilfreich sind hier z.B. Aufgaben, die dabei helfen, die Funktionsweise von Werkzeugen zu vergleichen – etwa leicht veränderte Sätze mit DeepL übersetzen oder GPT-3 nutzen, um unterschiedliche Witze erklären zu lassen (die Idee stammt aus diesem Essay von Steven Johnson).

Lernziel 2: Einsatz bei der Bewältigung von Schreibaufgaben

Ist ein Verständnis vorhanden, können bei Schreibaufgaben, die sich an anderen Lernzielen orientieren, die didaktisch festgelegt werden, diese Tools eingesetzt werden.

Hier bietet sich ein spiralförmiger Ansatz an, bei dem dieselben Zug immer wieder Verwendung finden, aber mit gesteigerten Ansprüchen und Komplexität. So könnte z.B. GPT-3 zunächst für einen Entwurf einer Einleitung verwendet werden, dann für mehrere Teile eines Textes und dann fürs Überarbeiten etc.

Lernende wenden so also KI-Tools praktisch an und kennen sich dadurch besser mit ihrer Anwendung aus, können aber gleichzeitig auch besser beurteilen, welche Leistungen die Tools erbringen.

Lernziel 3: Reflexion und Ethik

Kürzlich habe ich mit einer Klasse unterschiedliche Gedichte mit KI-Programmen erzeugt: Lerneinheit Wir erzeugen ein Gedicht

Teil solcher Lernphasen ist immer, darüber nachzudenken, was es bedeutet, automatisiert Lyrik zu generieren. Welche Muster lassen sich beobachten? Wo liegen Grenzen der KI? Wie sind die entstandenen Texte zu beurteilen? Kann Kunst automatisch generiert werden?

Solche Fragen sind bei der Verwendung von entsprechenden Programmen wichtig. Zur Reflexion gehören auch ethische Fragen: Dürfen Schreibende KI-Texte als eigene ausgeben? Unter welchen Bedingungen ist das eher, unter welchen gar nicht denkbar? Wie können in gemischten Texten KI-Anteile seriös ausgewiesen werden?

Letztlich stellen sich generelle Fragen: Wozu schreiben Menschen (und Programme)? Wer drückt in Texten was aus? Was kann (und soll) Schreiben in einer Kultur der Digitalität bedeuten?

Lernziel 4: Literarisches Lernen

Die oben erwähnte Lerneinheit arbeitet mit Bildern, aus denen dann Gedichte automatisiert generiert werden. Solche Transformationen sind viele denkbar. Sie können sichtbar machen, wie ein Algorithmus einen künstlerischen Prozess modelliert (bzw. welche Muster er abruft, um einen künstlerischen Prozess zu simulieren).

Generell können im Umgang mit literarischen Texten KI-Tools genutzt werden, um sichtbar zu machen, wie Vorlagen funktionieren und welchen Regeln sie gehorchen. Sehr einfach sichtbar gemacht werden kann das, indem Programme genutzt werden, um Vorlagen weiterzuschreiben. Hannes Bajohr hat das schon sehr früh mit Kafka-Texten gemacht, die sich dafür sehr gut eignen. Eine Skizze für den Umgang mit Prosa, Lyrik und Dramatik findet sich in diesem Blogpost:

Lernziel 5: Experimente und kreativer Umgang

Mittlerweile gibt es eine Reihe von journalistischen Texten, die von GPT-3 (mit-)geschrieben worden sind – kürzlich ist z.B. ein solcher Beitrag im NZZ Folio erschienen. Das ist ein einfacher Ansatzpunkt für den Unterricht: Testen, welche Schul- und Alltagstexte in welcher Qualität automatisiert generiert werden können.

Solche Versuche können dann einen Ansatz bieten, um subversive Experimente zu machen und mit den Möglichkeiten und Schwächen der Programme zu spielen. Hier können Lernende wohl schnell eigene Ideen generieren, mit welchen Anweisungen die Tools gefüttert werden könnten.

Ausblick

Aktuell läuft in der Schweiz eine Aktion, bei der ein Digitalaktivist Schüler*innen dabei hilft, längere Facharbeiten automatisch zu generieren. Versuche, so einerseits die Anforderungen von Schulen oder Universitäten zu umgehen, andererseits auf die bestehenden technischen Möglichkeiten aufmerksam zu machen, wird es in den nächsten Jahren einige geben. Sie zeigen zwei Dinge: Schulen und Unterricht durchlaufen erstens die digitale Transformation und müssen darauf Rücksicht nehmen, welche Aufgaben automatisiert werden können. Zweitens steht die aktuelle Bewertungskultur zeitgemäßen Lernformen im Weg. Lernende haben in Bezug auf ihre Entwicklung nichts davon, wenn sie eine wichtige Arbeit mit zahlreichen Lerneffekten automatisieren lassen – in Bezug auf ihre Noten hingegen schon.

Besonders interessant sind solche Effekte aber nicht: Gewisse Menschen werden immer wieder verblüfft sein, wie leistungsfähig Programme sind. Ihr Reflex wird dann auch immer wieder dazu übergehen, diese Möglichkeiten zu verbieten und den Zugang dazu einzuschränken.

Wichtiger werden aber didaktisch die Fragen sein, wie ein kompetenter Umgang mit Werkzeugen aussieht, wie eine Zusammenarbeit von Menschen und Maschinen angeleitet und gestaltet werden kann.

Interaktive Gespräche unter Lernenden als Kernvorstellung des Gymnasiums

Kürzlich habe ich hier beschrieben, weshalb ich aktuell eine Krise des Gymnasiums ausmache. Grundsätzlich geht es darum, dass das Gymnasium nicht konzipiert ist, um der gesellschaftlichen Transformation zu begegnen, die im Rahmen einer umfassenden Digitalisierung in den letzten Jahrzehnten erfolgt ist. In den folgenden Abschnitten möchte ich zeigen, wie eine Umgestaltung gelingen könnte.

Aus der Perspektive der Lernenden äußert sich das Problem oft im Wunsch, in bestimmten Fächern den Stoff einfach zuhause bearbeiten zu können, um dann Prüfungen abzulegen. Der Wunsch zeigt eine Wahrnehmung des Unterrichts, die im unten abgebildeten ICAP-Framework (hier der wissenschaftliche Aufsatz dazu) der Qualitätsstufe »passiv« entspricht. Kai Niebert wird in einem Beitrag fürs UZH Magazin wie folgt zitiert:

Auch heute bestehen noch rund 90 Prozent des Unterrichts insbesondere in den Gymnasien in der abstrakten Vermittlung von Wissen. Manchmal ist das richtig und notwendig, sagt Niebert. Doch gleichzeitig ist für ihn klar: «Bedeutungsvolles Wissen entsteht, wenn neue Informationen für uns relevant sind und wir sie im Alltag einsetzen und verbinden können mit bereits Bekanntem.»

Niebert: Glückshormone fürs Hirn, UZH Magazin 3/22

Im ICAP-Framework bedeutet das: Gymnasialer Unterricht muss konstruktiv und interaktiv werden. Chi und Wylie verstehen darunter Dialoge, welche folgendes Kriterium erfüllen:

[…] dialogues are truly interactive only if each speaker’s utterances generate some knowledge beyond what was presented in the original
learning materials and beyond what the partner has said;
thus, both partners need to be constructive.

Chi & Wylie 2014

Interaktivität hat also nichts damit zu tun, digitale Geräte zu benutzen – obwohl auch ein Programm ein Partner im Sinne von Chi und Wylie sein kann, wenn Lernende in eine Art Dialog damit treten, bei dem sowohl das Programm als auch die Lernenden Wissen erarbeiten können.

Geht man von dieser Gesprächsvorstellung aus, hat man einen einfachen Kern von dem, was qualitativ hochwertige Bildung am Gymnasium darstellt: Gespräche, bei denen Lernenden in der Interaktion mit anderen Lernenden Wissen generieren. Nimmt man die Einsichten von Niebert dazu, dann sollte dieses Wissen für Lernende relevant sein und einsetzbar in ihrem Alltag.

Ausgehend von dieser Einsicht kann man nun leicht beschreiben, weshalb z.B. eine Digitalisierung von Frontalunterricht auf einer qualitativ tiefen Stufe im Modell von Chi und Wylie stehen bleibt: Weil Erklärfilme oder digitale Skripte Lernenden keine solchen konstruktiven Interaktionen ermöglichen, sondern sie sogar verhindern. Wer sich durch Interfaces klicken muss, kann Wissensbestände weder verbalisieren (eine Bedingung für Chi und Wylie) noch sie im Alltag mit Bekanntem verknüpfen.

Dasselbe gilt für Fachkulturen, die weiterhin am Primat des Stoffes festhalten: Ein Mathematik- oder Biologieunterricht, in dem Themen »durchgenommen« werden, verwendet Settings, die geradezu verhindern, dass Lernende in Dialoge treten können.

Gute gymnasiale Bildung muss Möglichkeiten für tiefschürfende Lerngespräche schaffen, vielfältige Interaktionen ermöglichen, in denen relevantes Wissen aufgebaut werden kann. Die Angst, Lehrpersonen würden dann auf die Rolle von »Coaches« reduziert, schwingt bei solchen Aussagen immer mit – sie ist nicht berechtigt. Lehrpersonen nehmen ebenfalls an solchen Gesprächen teil, sie lernen dazu. Sie sind Partner*innen beim Lernen von Schüler*innen, sie ermöglichen es. Aber sie dozieren nicht mehr, weil das eine qualitativ wenig wertvolle Lernmethode darstellt.

Evaluiert man Unterricht, dann müsste diese Frage im Vordergrund stehen: Können Lernende interaktive Dialoge führen, in denen sie neues Wissen generieren? Ist das der Fall, ist Unterricht gelungen – wenn nicht, muss er verbessert werden.

Dabei spielt es nun keine Rolle mehr, ob digitale Medien eingesetzt werden oder nicht. Wir sind beim postdigitalen Gymnasium angelangt.