OpenAI stellt GPT-4o vor: Es sieht, es spricht, es singt

Die Maschine beginnt zu menscheln: OpenAI hat eine neue Version seiner Wunder-KI GPT-4 vorgestellt. Das Ziel: Eine Revolution der Mensch-Maschinen-Interaktion.

Von

Christian Schiffer

Über dieses Thema berichtet: BR24 Infoblock am 13.05.2024 um 12:12 Uhr.

Gestern Abend twitterte Sam Altman nur ein Wort. Ein Wort aus lediglich drei Buchstaben. "Her", tippte der Chef des KI-Firma OpenAI sein Twitter-Fenster. Gerade hatte OpenAI eine Reihe von Neuerungen präsentiert und einige davon haben das Zeug, die Kommunikation zwischen Mensch und Maschine umzukrempeln. Mit "Her" spielte Sam Altman auf den gleichnamigen Film aus dem Jahr 2013 an. In dem oscarprämierten Streifen verliebt sich Joaquin Phoenix in eine KI, die in dem Film von Scarlett Johansson gesprochen wird. Die Konversation mit der körperlosen Maschine ist nicht viel anders als die mit einem Menschen: Die KI spricht natürlich, ohne Verzögerungen, erkennt Emotionen und ist außerdem einfühlsam und empathisch. Und das, was Open AI gestern vorgestellt hat, kommt dem Szenario aus dem Film von Spike Jonze schon ziemlich nahe.

Ein Modell, das alles kann?

Kern der Präsentation von OpenAI war ein neues KI-Modell GPT-4o. Das "o" im Namen bezieht sich auf das lateinische Wort "omni" für "alles". Denn das sogenannte Omnimodell soll eben nicht nur Texte, sondern auch Audio und Bildinhalte verarbeiten können. Es soll Emotionen in Gesichtern erkennen, bis zu 50 Sprachen sprechen und dadurch auch als eine Art Simultanübersetzer agieren. Folgerichtig brach kurze Zeit nach der Präsentation von GPT-4o der Börsenkurs der Sprachlernplattform Duolingo ein.

Eine Maschine, die klingt wie ein Mensch

Bilder konnte ChatGPT zwar schon bisher erkennen und auch sprechen konnte GPT auch schon. Allerdings soll mit GPT-4o alles einfacher klappen und in Echtzeit. Während man bei der Sprachassistent-Funktion bisher jede Frage einzeln an ChatGPT geben und teils mehrere Sekunden auf eine Antwort warten musste, kann man mit der Maschine nun fast so sprechen, wie mit einem Menschen. ChatGPT spricht und hört gleichzeitig mit.

Man kann der KI dadurch sogar ins Wort fallen, wenn sie zu ausführlich antwortet oder etwas von sich gibt, das man gar nicht wissen möchte. Man kann ChatGPT zudem bitten, eine andere Stimme zu verwenden, euphorischer, dramatischer, deutlicher zu sprechen oder sogar zu singen. Sollte die Realität halten, was die OpenAI-Präsentation verspricht, dürften Sprach-Assistenten wie Amazons Alexa und Apples Siri bald sehr altbacken wirken.

GPT-4o auch für Gratis-Nutzer

Auch in anderen Disziplinen kann GPT-4o beeindruckende Fähigkeiten vorweisen. In der Präsentation half das Programm dabei, eine Gleichung zu lösen, die ein OpenAI-Mitarbeiter auf ein Papier geschrieben hatte. Es reichte, das Handy auf die das Blatt zu richten und GPT-4o gab Tipps für den Rechenweg. Was die Textarbeit angeht, so zeigt ein kurzer Test, dass die neue GPT-Version wesentlich schneller ist und sich genauer an bestimmte Promts hält.

GPT-4o soll zunächst einmal nur ChatGPT-Plus-Kunden offenstehen. Später soll GPT-4o aber auch für Nutzer verfügbar sein, die die kostenlose Version verwenden, allerdings mit einem Limit für ausgetauschte Nachrichten. Außerdem kündigte OpenAI eine Desktop-App für ChatGPT an. Diese soll erst einmal für MacOS verfügbar sein, eine Windows-Version wird im Laufe des Jahres folgen.

🎧Wie verändert KI unser Leben? Und welche KI-Programme sind in meinem Alltag wirklich wichtig? Antworten auf diese und weitere Fragen diskutieren Gregor Schmalzried, Marie Kilg und Fritz Espenlaub jede Woche in Der KI-Podcast – dem Podcast zur KI-Revolution von BR24 und SWR.

Das ist die Europäische Perspektive bei BR24.

"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!