Als Erstes wurde der KI das Geschichtsabitur 2023 vorgelegt. Eine Aufgabengruppe dort beschäftigte sich mit dem Wandel der Gesellschaft vom 15. bis zum 19. Jahrhundert, zum Beispiel im Zunft- und Verlagswesen, mit der Bedeutung der Eisenbahn und der Stellung der jüdischen Bevölkerung. Das Ergebnis: ChatGPT macht seine Sache ziemlich gut, befindet Judith Bruniecki. Die Geschichtslehrerin am Gymnasium in München-Moosach gibt dem Programm eine Zwei. "Schwierigkeiten hat die KI vor allem dann, wenn es darum geht, etwas zu beurteilen, abzuwägen und vielleicht sogar noch um die Ecke zu denken", so Bruniecki. Schade, denn das hat ChatGPT den Einser gekostet.

Statt einer Vier gibt es nun die Note Zwei

Auch das Ergebnis in Ethik verbesserte sich erheblich im Vergleich zu GPT 3.5. Bei der letzten Prüfung bewertete Winfried Kober, Ethik-Lehrer am Ludwig-Thoma-Gymnasium Prien, die Prüfung mit einer Vier minus. Das überarbeitete Sprachmodell schneidet nun jedoch deutlich besser ab. 10 Punkte würde Winfried Kober diesmal vergeben, was einer Zwei minus entspricht. Die Antworten seien insgesamt sprachlich gut formuliert und klar auf die Aufgabenstellung ausgerichtet gewesen. Es habe zwar punktuell Defizite bei der Wiedergabe von Fachbegriffen gegeben, doch insgesamt sei die Steigerung deutlich. "Im Vergleich zum letzten Mal, als die KI nur ganz knapp bestanden hat, ist dies ein großer Fortschritt", resümiert Kober.

💡 So schickt man eine KI zum Abi

“Lösen Sie folgende Abituraufgabe zum Thema "Theorie und Praxis des Handelns" so, als wären Sie ein Schüler an einem bayerischen Gymnasium": So, oder so ähnlich lautete die Arbeitsanweisung, die wir der KI gegeben haben, um die Abi-Aufgaben zu lösen. Manchmal mussten wir allerdings etwas nachhelfen, etwa dann, wenn eine Antwort zu kurz war. Um der KI eine faire Chance zu geben, haben wir dann die Aufgabe aufgesplittet und häppchenweise beantworten lassen. Hier finden Sie den detaillierten Werkstattbericht unseres letzten KI-Abi-Experiments.

ChatGPT: Vom Problem-Schüler zum Zweier-Abi

Teilweise ist die Leistungssteigerung von GPT4 im Vergleich zu GPT 3.5 beachtlich. Das wird im Fach Deutsch deutlich. Beim letzten Versuch glich GPT noch einem Schüler, der zwar wenig Ahnung hat, aber gut daherreden kann. "Viel Gelaber, wenig Substanz", so das harte Urteil des Deutschlehrers, der damals das KI-Abi korrigierte und ChatGPT mit mageren drei Pünktchen bedachte. Und jetzt? Jetzt mausert sich ChatGPT fast schon zum Abi-Streber, und das, obwohl es im diesjährigen Deutschabitur eine recht verrätselte Parabel von Ilse Aichinger zu interpretieren galt. "Ich finde, das ist sprachlich auf einem durchgehend sehr hohen Niveau", sagt Christoph Willing. Der Deutschlehrer am St. Anna Gymnasium in München sei überrascht gewesen, wie sehr die KI auch in die Tiefe geht, insbesondere bei der Interpretation des Textes. Zehn Punkte würde Willing der KI zugestehen, das wäre eine Zwei Minus.

Die KI wäre ein Zweierschüler

Generell hagelt es bei unserem Experiment diesmal ziemlich viele Zweier. So auch in Mathematik. “Während man im letzten Durchgang teils nicht nachvollziehbaren Kauderwelsch zu lesen bekam, sind die Antworten dieses Mal sehr gut strukturiert und der Lösungsweg ist fast immer effizient und gut nachvollziehbar”, schreibt Thomas Spindler, Mathematik-Lehrer am Luisen-Gymnasium in München. Die KI habe sich sogar die Mühe gemacht, die Lösung mit hilfreichen Kommentaren zu versehen, die man theoretisch sogar nutzen könnte, um auch die menschlichen Schüler besser zu machen.