Programmcode mit CPU und abstraktem Technologie Hintergrund mit Server Racks und vielen Lichtern

Bildrechte: picture alliance / Klaus Ohlenschläger | Klaus Ohlenschläger

Fast niemand weiß, mit welchen Datensätzen Chatbots wie ChatGPT trainiert wurden (Symbolbild)

21.07.2023, 05:18 Uhr

Audiobeitrag

Blackbox KI: Mit welchen Daten werden Sprachmodelle trainiert?

Künstler und Kreative gehen gegen die Sprachmodelle hinter Anwendungen wie ChatGPT auf die Barrikaden: Sie wollen wissen, ob die Modelle mit ihren Werken trainiert wurden - und fordern eine Transparenzpflicht im KI-Gesetz der EU.

Von

Bernd Oswald

Über dieses Thema berichtet: Bayern 2 Zündfunk am 17.07.2023 um 19:35 Uhr.

Sie verunglimpfen, lügen oder klauen geschützte Daten. Das sind Vorwürfe, die gerade immer mehr Kläger gegen KI-Firmen wie OpenAI, Meta oder Google erheben.

Dabei geht es zum einen um personenbezogene Daten: Ende Juni verklagte eine Gruppe anonymer Personen OpenAI, den Anbieter des Chatbots ChatGPT, Unmengen persönlicher Daten gestohlen zu haben. Und BR-Datenjournalistinnen fanden kürzlich in einem Trainingsdatensatz für KI-Bildgenerierung massenweise Informationen, mit denen sich Personen identifizieren lassen: Gesichter und Namen, Geokoordinaten oder E-Mails, Kontonummern oder beliebige Kombinationen davon.

FTC fragt: Wie ist OpenAI an seine Daten gekommen?

Seit vergangener Woche ermittelt die US-Wettbewerbsbehörde FTC gegen OpenAI. Die Washington Post veröffentlichte den 20-seitigen Fragebogen, den die FTC an Open geschickt hat. Eine der Fragen: "Wie ist OpenAI überhaupt genau an seine riesigen Datenmengen gekommen?"

Doch darüber ist nur wenig bekannt. Die meisten Anbieter von generativer KI lassen sich hier nicht in die Karten schauen. Von GPT3, dem Sprachmodell, auf dem ChatGPT aufbaut, weiß man, dass es vor Jahren unter anderem mit einem offenen und kostenlos nutzbaren Datensatz namens Common Crawl trainiert wurde, der mehr als 300 Milliarden Wörter umfasst. Erstellt wurde der Datensatz durch einen sogenannten Crawler: Ein Programm, das das Internet automatisch nach Inhalten durchsucht und sowohl Webseiten als auch Informationen vollständig ausliest und indexiert, also in den Datensatz aufnimmt.

Außerdem wurden vier weitere Datensätze zum Training verwendet: Einer mit Webseiten, auf die aus dem Social-Media-Forum Reddit heraus verlinkt wurde, zwei mit Büchern und einer mit Wikipedia-Seiten in englischer Sprache. Diese Datensätze sind zwar kleiner als der Common-Crawl-Datensatz, umfassen aber auch jeweils mehrere Milliarden Wörter.

Data Mining ist in der EU erlaubt

Diese Datensätze stellten aber nur das Basistraining dar. Sprachmodelle werden ständig weiter trainiert. OpenAI schreibt auf seiner Website vage von drei Quellen:

Informationen, die im Internet öffentlich zugänglich sind: Also Nachrichtenseites, Blogs, soziale Netzwerke.
Lizenzierte Informationen: zum Beispiel Archivinhalte von Medien
Informationen von Nutzern oder Trainern: Durch die Eingaben, die wir bei ChatGPT machen, lernt das System dazu.

Den größten Batzen machen die frei zugänglichen Websites aus. Im Prinzip kann jede Webpage von einem Crawler erfasst werden und in einem Trainingsdatensatz landen. Seit 2019 ist dieses Text- und Data-Mining genannte Vorgehen in der EU legal, denn damals trat die Urheberrechtsrichtlinie in Kraft, die unter bestimmten Voraussetzungen die automatische Verarbeitung von Texten, Tönen, Bildern und Daten erlaubt. Es sei denn, der Website-Betreiber verwahrt sich in maschinenlesbarer Form dagegen. Auf vielen News-Websites findet sich ein Hinweis, dass sich der Verlag die Nutzung seiner Inhalte für kommerzielles Text- und Data-Mining vorbehält – und Interessenten doch bitte eine entsprechende Nutzungslizenz erwerben sollen.

Allerdings lasen die Anbieter von KI-Anwendungen schon vor der EU-Urheberrechtsreform im großen Stil Websites aus. In den USA ist das nach Aussage von Google auch legal: "Amerikanisches Recht erlaubt die Nutzung öffentlicher Informationen zur Schaffung neuer nützlicher Verwendungszwecke”, schreibt der Suchmaschinenkonzern, der mit Bard seit kurzem auch ein Sprachmodell anbietet.

Kreative wollen wissen, ob Sprachmodelle mit ihren Werken trainiert wurden

Welche Websites und Bücher sich im Einzelnen in den Trainingsdaten für ChatGPT, Bard und andere Sprachmodelle befinden, ist nicht bekannt. Genau das wollen aber viele Kreative und Künstler wissen. Genauer gesagt: Sie wollen wissen, ob sie bzw. ihre urheberrechtlich geschützten Werke in den Trainingsdaten enthalten sind.

Nicht nur in den USA, sondern auch in Europa: Die Initiative Urheberrecht, ein Zusammenschluss von 43 Verbänden und Gewerkschaften, die Autoren und Künstler verschiedener Branchen vertreten, fordert deswegen eine Transparenzpflicht über das verwendete Trainingsmaterial. Die soll in das KI-Gesetz aufgenommen werden, über das die Institutionen der Europäischen Union gerade verhandeln.

Die Idee dahinter: Nur wenn man weiß, ob das eigene Material von OpenAI und Co zum Training verwendet wird, kann man auch Geld dafür verlangen. Der Deutsche Journalistenverband (DJV), eines der Mitglieder der Initiative Urheberrecht, fordert eine Vergütungspflicht für KI-Anwendungen: Wenn ein Konzern wie OpenAI Texte von Journalisten verwendet, soll er dafür bezahlen, die Erlöse sollen Journalisten zugute kommen.

Kommt die Transparenzpflicht ins KI-Gesetz der EU?

Das Europäische Parlament will die Transparenzpflicht für KI-Anwendungen mit allgemeinem Verwendungszweck, wozu auch ChatGPT und Co. zählen, in den KI-Act aufnehmen. In den nächsten Monaten wird sich zeigen, ob das auch der Europäische Rat und die EU-Kommission so sehen. Mit einer Verabschiedung des KI Acts wird frühestens Ende dieses Jahres, eventuell auch erst im nächsten Jahr gerechnet. Danach sollen Übergangsfristen von bis zu zwei Jahren gelten. OpenAI, Microsoft und Google müssen also frühestens ab 2025 offenlegen, was alles in ihren Trainingsdaten drin ist. Bis dahin bleiben ihre Modelle eine Blackbox.

Das ist die Europäische Perspektive bei BR24.

"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!

Blackbox KI: Mit welchen Daten werden Sprachmodelle trainiert?