Genie 3 kann den Stein in der Pfütze – und die Wellen danach
7. August 2025
Genie 3 kann Pfützen darstellen. Klingt banal, ist es aber ganz und gar nicht. Denn je nach Lichtverhältnissen und Betrachtungswinkel spiegelt sich die Umgebung unterschiedlich in einer Pfütze wider. Und wenn jemand einen Stein hineinwirft, dann kommt das Spiegelbild auch noch in Bewegung. Ganz schön schwierig, so etwas naturgetreu darzustellen. Google DeepMind hat es mit Genie 3 verblüffend realistisch geschafft.
Was Genie 3 kann und weshalb wir beeindruckt sind
Genie 3 ist das erste so genannte "Weltmodell", das in Echtzeit interaktive 3D-Umgebungen generiert. Das bedeutet: Nutzer*innen geben dem System eine Textbeschreibung – etwa "Eine Spaziergängerin auf einem Feldweg, der von abgemähten Feldern und Wäldern umgeben ist und auf dem sich Pfützen gebildet haben" – und es erstellt nicht nur ein Video, sondern eine ganze Welt, durch die sie sich bewegen können. Bei 720p-Auflösung und 24 Bildern pro Sekunde, mit einer Konsistenz über mehrere Minuten hinweg.
Das Besondere: Genie 3 kann sich bis zu einer vollen Minute lang an die Position von Objekten und visuelle Details erinnern, selbst wenn Nutzer*innen wegschauen und später zurückkehren. Die Pfütze bleibt also da, wo sie war, mit denselben Spiegelungen – zumindest für eine Weile.
Noch faszinierender ist die Fähigkeit, die Welt spontan zu verändern. Mit Textbefehlen lassen sich während der Erkundung neue Elemente einfügen – etwa ein paar Rehe, die den Weg kreuzen. Die KI passt die Umgebung entsprechend an, ohne dass die Physik oder die Kontinuität der Welt zusammenbricht.
Exklusiver Zugang
Der Haken an der Sache: Genie 3 steht nur als limitierte Forschungsvorschau zur Verfügung, mit Zugang für eine kleine Gruppe von Forschenden und Kreativen. Wann und ob das Tool öffentlich zugänglich wird, ist ungewiss. DeepMind behandelt es derzeit primär als Forschungsinstrument, nicht als Produkt für seine Kunden.
Weltmodelle - ein Schlüssel zur KI-Zukunft
Hinter Genie 3 steckt das Konzept der “Weltmodelle”, die als zentral auf dem Weg zur künstlichen allgemeinen Intelligenz (AGI) gelten. Sie ermöglichen es, KI-Agenten in beliebigen, komplexen Simulationsumgebungen zu trainieren. Stellen wir uns vor: Anstatt auf vorgefertigte Trainingsdaten angewiesen zu sein, könnte eine KI unendlich viele Szenarien durchspielen, selbst experimentieren und aus Fehlern lernen – ähnlich wie wir Menschen. Eine KI könnte in Genie-3-Welten das Greifen üben, Gefahren einschätzen lernen oder komplexe Bewegungsabläufe trainieren, ohne dass dafür teure Hardware oder reale Testumgebungen nötig wären.
Was Genie 3 von gewöhnlicher Videogenerierung unterscheidet, ist sein Verständnis für Physik und Kausalität. Das Modell lehrt sich selbst, wie die Welt funktioniert – wie Objekte sich bewegen, fallen und miteinander interagieren – indem es sich daran erinnert, was es generiert hat, und über lange Zeiträume hinweg Schlüsse zieht.
Es ist, als hätte die KI eine Art visuelles Gedächtnis entwickelt. Sie weiß nicht nur, dass Wasser fließt, sondern auch, wie sich eine bestimmte Wasserstelle verhält, wenn jemand einen Stein hineinwirft. Sie versteht nicht nur, dass Schatten existieren, sondern wie sie sich je nach Tageszeit und Objektposition verändern. Die Pfütze ist dabei nur der Anfang.