Google Gemini: KI-Bot generiert jetzt komplette Songs inklusive Lyrics

Nach Text, Bild und Video erobert Google Gemini nun die Welt der Audioproduktion. Mit dem neuesten Update integriert Google das leistungsstarke Musikmodell Lyria 3 direkt in seinen Chatbot. Nutzer können damit ab sofort 30-sekündige Tracks erstellen, die nicht nur die Melodie, sondern auch passenden Gesang und Songtexte enthalten.
Zum Abschnitt springen
Lyria 3: Vom Text zur fertigen Produktion
Bisher waren Googles Musik-Experimente wie MusicFX oder Dream Track oft auf kurze, instrumentale Clips beschränkt. Lyria 3 geht einen deutlichen Schritt weiter: Das Modell versteht Kontext und Stimmung so gut, dass es komplexe, mehrschichtige Instrumentals mit menschlich klingenden Stimmen kombiniert. Besonders interessant ist dabei die Multimodalität. Nutzer müssen nicht zwingend beschreiben, wie der Song klingen soll. Es reicht aus, ein Foto oder Video hochzuladen. Gemini analysiert die visuelle Stimmung und komponiert darauf basierend einen passenden Soundtrack – etwa einen entspannten Akustik-Pop-Song für ein Wanderfoto oder einen energetischen Beat für ein Sportvideo.
Deep-Editing und kreative Kontrolle
Gemini bietet im Vergleich zu Konkurrenten wie Suno oder Udio tiefgreifende Anpassungsmöglichkeiten direkt im Chat. Nach der Generierung eines Tracks können Nutzer per Follow-up-Prompt Details verändern. Das System erlaubt es, das Tempo zu variieren, den Musikstil nachträglich anzupassen oder die KI anzuweisen, den Gesangsstil zu ändern. Auch die Lyrics lassen sich basierend auf dem Prompt modifizieren oder komplett umschreiben. Wer eine bestimmte Inspiration im Kopf hat, kann zudem bestehende Musikdateien hochladen, damit Gemini diesen Stil als Referenz für die Neukomposition nutzt.
Technische Details und Schutz vor Missbrauch
Das Herzstück der Funktion ist das Lyria-3-Modell von Google DeepMind, das Tracks mit einer Länge von maximal 30 Sekunden produziert. Jeder Song wird automatisch mit einem passenden Album-Cover ergänzt, das von der Nano-Banana-KI erstellt wird. Um dem Vorwurf von Urheberrechtsverletzungen vorzubeugen, enthalten alle Tracks ein unsichtbares SynthID-Wasserzeichen. Google betont zudem, dass das Modell so trainiert wurde, dass es keine existierenden Künstler kopiert. Die Ausgaben werden automatisiert gegen Datenbanken geprüft, um Plagiate zu verhindern, und Nutzer haben die Möglichkeit, verdächtige Inhalte direkt zu melden.
Verfügbarkeit und Kosten
Das Feature wird seit heute für die Gemini Web-Oberfläche und die mobilen Apps auf Android und iOS ausgerollt. Die Funktion startet als Beta in mehreren Sprachen, darunter Deutsch, Englisch, Französisch und Japanisch. Die Musikgenerierung steht sowohl Free-Usern als auch zahlenden Abonnenten zur Verfügung, wobei sich die verfügbaren Credits nach dem jeweiligen Abonnement-Status richten. Nutzer mit einem AI-Premium-Plan erhalten entsprechend höhere Kontingente für ihre Produktionen.