4

Künstliche Intelligenz Googles-Stimme soll menschlicher klingen

Googles KI-Abteilung Deep Mind arbeitet an einem Sprachausgabe-System, das nicht nach Computer klingt. Kern der Technologie ist ein neuronales Netz, ein dem menschlichen Gehirn nachempfundenes, lernendes System.

Von: Achim Killer

Stand: 12.09.2016

Google-Schriftzug auf einem Tablet | Bild: picture-alliance/dpa

Sie heißen Siri, Cortana und Alexa - und sind doof: die persönlichen Smartphone-Assistentinnen von Apple, Microsoft und Amazon. Man hört es ihnen einfach an. Ein Stück Software halt, das auf einer Maschine, in dem Fall: einem Telefon, läuft. Niemand würde auf die Idee kommen, dass da ein Mensch spricht, der weiß, wovon er redet.

Sprachschnipsel ohne Sinn

Das liegt an den beiden Technologien, derer sich aktuelle Sprachausgabesysteme bedienen. Bei der einen wird die menschliche Sprache aufgezeichnet und dann in winzige Schnipsel zerhackt. Daraus werden wiederum Silben, Wörter und Sätze zusammengebaut. Concatenative TTS nennt sich diese Methode, etwa: Text-Sprach-Wandlung durch Verkettung. Der Sinn des Gesprochenen bleibt dabei auf der Strecke.

Parametrisierte statt lebendige Sprache

Parametrisiert nennt sich das andere Verfahren. Phonetik-Regeln und Grammatik werden in Software gegossen. Das klingt noch unnatürlicher.

Wavenet lernt und spricht

Wavenet schließlich heißt das neue Verfahren von Google. Auch dabei werden menschliche Sprechproben aufgezeichnet, allerdings nicht um sie zu zerhacken und anders zusammenzusetzen, sondern um sie mit einem neuronalen Netz zu analysieren.

Gewaltiger Rechenaufwand

Die Resultate sind beeindruckend. Der einzige Nachteil: Wavenet ist extrem rechenaufwändig und wird deshalb in absehbarer Zeit nicht auf einem Handy laufen. Es handelt sich dabei um ein KI-Projekt, ähnlich Alpha-Go, der Software von Deep Mind, die im März den Go-Großmeister Lee Sedol besiegte.


4