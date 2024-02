Die Google-Forscher stellten der KI etwa ein Wörterbuch und einen Grammatikleitfaden für die obskure Sprache "Kalamang" zur Verfügung. Diese Sprache befand sich vorher nicht in den Trainingsdaten der KI. Allein Wörterbuch und Grammatik waren genug für die KI, um sofort Texte von Englisch in Kalamang zu übersetzen. Die Übersetzungen waren ähnlich gut wie die eines Menschen, der die gleichen Materialien zur Verfügung gestellt bekommen hätte.

Gemini 1.5 arbeitet auch mit sehr langen Texten

Die größte Innovation sieht Google aber bei der Verbesserung des sogenannten "Kontext Window". Das ist die Menge an Daten, welche die KI auf einmal verarbeiten kann. Für GPT-3.5, also die Gratisvariante von ChatGPT, sind das etwa 12.000 Wörter, für GPT-4, die Bezahlvariante von ChatGPT, etwa 100.000 Wörter. Gemini 1.5 soll jedoch bis zu 7,5 Millionen Wörter verarbeiten können – ein gigantischer Sprung.

Das bedeutet: Die KI kann sehr viele Daten auf einmal verarbeiten – etwa siebenmal die Länge der gesamten Harry Potter-Reihe. Sie ist dann in der Lage, auch über große Textmengen Details und versteckte Hinweise ausfindig zu machen, oder Informationen miteinander zu verknüpfen.

Bild und Video integriert

Und nicht nur mit Text kann die KI umgehen. Auch auf Filme und stundenlange Audiodateien soll Gemini 1.5 eingehen können. In einem Beispiel zeigen die Google-Forscher, wie die KI einen Buster Keaton-Film analysiert. Anschließend fordern die Forscher die KI auf, die Stelle im Film zu identifizieren, in der eine Figur ein Stück Papier aus einer Tasche nimmt. Gemini 1.5 nennt die korrekte Stelle und beschreibt sogar, was das Stück Papier ist.