Hinweis: Um alle Funktionen unserer Seiten nutzen zu können, wird JavaScript empfohlen.

Bildrechte: BR

Musste auch über dem bayerischen Abitur brüten: Die Sprach-KI ChatGPT

29.05.2023, 10:08 Uhr

Audiobeitrag

ChatGPT: So gut hat die KI das bayerische Abitur bestanden

ChatGPT: So gut hat die KI das bayerische Abitur bestanden

Im zweiten Anlauf hat es geklappt: ChatGPT hat das bayerische Abitur bestanden – und zwar mit Bravour! Wir verraten Ihnen die Paradedisziplinen der KI und warum manchem Lehrer angesichts des Maschinen-Erfolgs auch etwas mulmig wird.

Von

Christian Schiffer

Über dieses Thema berichtet: BR24 am 25.05.2023 um 07:40 Uhr.

Fast geschafft! Für viele Schüler in Bayern stehen diese Woche die mündlichen Abi-Prüfungen an, danach heißt es dann Warten aufs Zeugnis. Auch die "Wunder-KI" ChatGPT musste in den letzten Wochen über den bayerischen Abi-Aufgaben brüten, und zwar in den Fächern Deutsch, Mathe, Ethik, Geschichte und Informatik - und diesmal fiel das Ergebnis ganz anders aus als beim ersten Versuch. Bereits im Februar hatten die Computerlinguisten vom AI & Automation-Lab des BR der Künstlichen Intelligenz Abitur-Prüfungen vorgelegt.

Die Bewertung der KI-Ergebnisse wurde von echten Lehrern vorgenommen. Das damalige Ergebnis? Ernüchternd. ChatGPT holte in Informatik magere zwei Punkte, rasselte auch in Deutsch durch die Prüfung und sorgte in Mathe und Ethik für eine ziemliche Hängepartie. Einzig in Geschichte gelang ChatGPT ein Achtungsergebnis. Immerhin eine Drei plus konnte das Programm dank seines Wissens über die Bevölkerungsentwicklung im Heiligen Römischen Reich Deutscher Nation einheimsen.

Neue KI-Version, neues Abi-Glück?

Allerdings hat sich damals das KI-Modell an den Aufgaben versucht, welches auf GPT 3.5 basiert. Mittlerweile ist GPT 4.0 verfügbar. Das neue Modell kann mehr Daten verarbeiten und erreicht eine höhere Genauigkeit bei der Textausgabe. GPT 4.0 ist also deutlich leistungsfähiger und, wenn man so will, auch schlauer. Aber ist GPT 4.0 nun auch schlau genug für das bayerische Abitur und fällt nicht mehr durch wie sein Vorgänger?

Ausschnitt Korrektur Geschichtsabitur

Bildrechte: BR

Bildbeitrag

Beim Geschichts-Abi 2023 ging es unter anderem um einen Text des Wirtschaftstheoretikers und Eisenbahnpioniers Friedrich List.

Als Erstes wurde der KI das Geschichtsabitur 2023 vorgelegt. Eine Aufgabengruppe dort beschäftigte sich mit dem Wandel der Gesellschaft vom 15. bis zum 19. Jahrhundert, zum Beispiel im Zunft- und Verlagswesen, mit der Bedeutung der Eisenbahn und der Stellung der jüdischen Bevölkerung. Das Ergebnis: ChatGPT macht seine Sache ziemlich gut, befindet Judith Bruniecki. Die Geschichtslehrerin am Gymnasium in München-Moosach gibt dem Programm eine Zwei. "Schwierigkeiten hat die KI vor allem dann, wenn es darum geht, etwas zu beurteilen, abzuwägen und vielleicht sogar noch um die Ecke zu denken", so Bruniecki. Schade, denn das hat ChatGPT den Einser gekostet.

Statt einer Vier gibt es nun die Note Zwei

Auch das Ergebnis in Ethik verbesserte sich erheblich im Vergleich zu GPT 3.5. Bei der letzten Prüfung bewertete Winfried Kober, Ethik-Lehrer am Ludwig-Thoma-Gymnasium Prien, die Prüfung mit einer Vier minus. Das überarbeitete Sprachmodell schneidet nun jedoch deutlich besser ab. 10 Punkte würde Winfried Kober diesmal vergeben, was einer Zwei minus entspricht. Die Antworten seien insgesamt sprachlich gut formuliert und klar auf die Aufgabenstellung ausgerichtet gewesen. Es habe zwar punktuell Defizite bei der Wiedergabe von Fachbegriffen gegeben, doch insgesamt sei die Steigerung deutlich. "Im Vergleich zum letzten Mal, als die KI nur ganz knapp bestanden hat, ist dies ein großer Fortschritt", resümiert Kober.

💡 So schickt man eine KI zum Abi

“Lösen Sie folgende Abituraufgabe zum Thema "Theorie und Praxis des Handelns" so, als wären Sie ein Schüler an einem bayerischen Gymnasium": So, oder so ähnlich lautete die Arbeitsanweisung, die wir der KI gegeben haben, um die Abi-Aufgaben zu lösen. Manchmal mussten wir allerdings etwas nachhelfen, etwa dann, wenn eine Antwort zu kurz war. Um der KI eine faire Chance zu geben, haben wir dann die Aufgabe aufgesplittet und häppchenweise beantworten lassen. Hier finden Sie den detaillierten Werkstattbericht unseres letzten KI-Abi-Experiments.

ChatGPT: Vom Problem-Schüler zum Zweier-Abi

Teilweise ist die Leistungssteigerung von GPT4 im Vergleich zu GPT 3.5 beachtlich. Das wird im Fach Deutsch deutlich. Beim letzten Versuch glich GPT noch einem Schüler, der zwar wenig Ahnung hat, aber gut daherreden kann. "Viel Gelaber, wenig Substanz", so das harte Urteil des Deutschlehrers, der damals das KI-Abi korrigierte und ChatGPT mit mageren drei Pünktchen bedachte. Und jetzt? Jetzt mausert sich ChatGPT fast schon zum Abi-Streber, und das, obwohl es im diesjährigen Deutschabitur eine recht verrätselte Parabel von Ilse Aichinger zu interpretieren galt. "Ich finde, das ist sprachlich auf einem durchgehend sehr hohen Niveau", sagt Christoph Willing. Der Deutschlehrer am St. Anna Gymnasium in München sei überrascht gewesen, wie sehr die KI auch in die Tiefe geht, insbesondere bei der Interpretation des Textes. Zehn Punkte würde Willing der KI zugestehen, das wäre eine Zwei Minus.

Die KI wäre ein Zweierschüler

Generell hagelt es bei unserem Experiment diesmal ziemlich viele Zweier. So auch in Mathematik. “Während man im letzten Durchgang teils nicht nachvollziehbaren Kauderwelsch zu lesen bekam, sind die Antworten dieses Mal sehr gut strukturiert und der Lösungsweg ist fast immer effizient und gut nachvollziehbar”, schreibt Thomas Spindler, Mathematik-Lehrer am Luisen-Gymnasium in München. Die KI habe sich sogar die Mühe gemacht, die Lösung mit hilfreichen Kommentaren zu versehen, die man theoretisch sogar nutzen könnte, um auch die menschlichen Schüler besser zu machen.

Screenshot Mathe-Korrektur

Bildrechte: BR

Bildbeitrag

"Vielversprechend begonnen, aber falsche Schlussfolgerung". Die KI ist in Mathe sehr viel besser geworden, aber noch gelingt ihr nicht alles.

Am dramatischsten fällt aber die Steigerung im Fach Informatik aus. Beim Abi 2022 musste sich ChatGPT mit zwei Punkten begnügen. Nun aber würde Hermann Kees, Informatiklehrer Joseph-Bernhard Gymnasium in Türkheim, der KI elf Punkte geben, eine glatte Zwei. "Die KI hat sehr, sehr viel richtig gemacht und ich finde diese Entwicklung fast schon ein bisschen beängstigend", so Kees.

Screenshot Korrektur Informatik

Bildrechte: BR

Bildbeitrag

ChatGPT holt im Informatik-Abitur 91 von 120 Punkten - und damit die Note Zwei.

Zum Beispiel stellt sich die Frage, wie in Zukunft Schülerleistungen geprüft werden sollen, etwa beim Schreiben von Hausarbeiten, wenn Schüler die KI als Co-Autoren einsetzen können. "Künstliche Intelligenz wird die Aufgaben– und Prüfungskultur verändern", ist sich Ethik-Lehrer Winfried Kober sicher.

Tabelle Vergleich Abi 2022 / Abi 2023

Bildrechte: BR

Bildbeitrag

Anders als bei unserem ersten Versuch besteht ChatGPT das bayerische Abitur.

Fazit: ChatGPT ist auf dem Weg zum Einser-Abitur

GPT konnte sich im Vergleich zu unserem Experiment im Februar deutlich steigern und hätte das Abitur souverän bestanden. Die Abi-Leistung von GPT4 ist sehr viel besser als die von GPT 3.5. Aus dem einstigen Problemschüler ist fast ein Abi-Streber geworden. Und so ist es wohl nur noch eine Frage der Zeit, bis die KI ein Einser-Abitur schreibt.

Im Video: ChatGPT besteht bayerisches Abitur

Eine Aufgabe des bayerischen Abiturs im Fach Ethik.

Bildrechte: Bayerischer Rundfunk 2023

Videobeitrag

Die aktuelle Version des KI-Programms "ChatGPT" hat nun das bayerische Abitur bestanden.

Das ist dieEuropäische Perspektive bei BR24.

"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!