HyperAIHyperAI

Command Palette

Search for a command to run...

Fei-Fei Li, LeCun und DeepMind: Drei Visionen von „World Models“

Fei-Fei Li und Yann LeCun, zwei der einflussreichsten Figuren in der KI-Entwicklung, setzen beide auf „Weltmodelle“ – doch ihre Visionen unterscheiden sich grundlegend. Während Li mit World Labs den Markteintritt von Marble vorangetrieben hat, einem Tool, das aus Text, Bildern oder Layouts interaktive 3D-Szenen in Echtzeit generiert, plant LeCun, nach seinem Ausstieg aus Meta ein Startup zu gründen, das sich auf die Entwicklung von KI-Modellen konzentriert, die die Welt intern vorhersagen und verstehen können. Gleichzeitig positioniert DeepMind mit Genie 3 eine dritte, zwischen beiden stehende Herangehensweise: ein interaktives, video-basiertes Simulationsmodell, das Agenten in dynamischen Umgebungen trainieren lässt. Gemeinsam nutzen alle drei den Begriff „Weltmodell“, doch jeder versteht darunter etwas anderes. Marble, das Produkt von World Labs, ist ein vollständiger 3D-Inhaltspipeline-Stack, der auf der Technologie der Gaussian Splats basiert. Es wandelt Eingaben wie Text oder Bilder in renderbare 3D-Modelle um, die in Web-Browsern oder Game-Engines wie Unity genutzt werden können. Die „Welt“ hier ist visuell zugänglich – für Menschen, nicht für KI. Obwohl Li in ihrem Manifest From Words to Worlds von „räumlicher Intelligenz“, „Körperagenten“ und „Alltagsphysik“ spricht, bleibt Marble bislang ein Werkzeug für die Erstellung von 3D-Assets, kein kognitiver Modellierungsansatz. Die Kritik auf Hacker News und Reddit ist daher nicht von der Hand zu weisen: Es handelt sich weniger um ein „Weltmodell“ im Sinne einer internen Vorstellung der Welt, sondern um eine hochentwickelte Visualisierungstechnologie. Im Gegensatz dazu verfolgt LeCun einen ganz anderen Ansatz. Sein Konzept, wie in seinem 2022-Papier A Path Towards Autonomous Machine Intelligence beschrieben, geht von der Idee aus, dass KI nicht nur Text oder Bilder generieren, sondern die Welt intern vorhersagen muss – ähnlich wie ein menschliches Gehirn. Seine JEPA-Architekturen (Joint Embedding Predictive Architectures) lernen, latente Zustände und Übergänge vorherzusagen, ohne dass die Ausgabe optisch perfekt sein muss. Das „Weltmodell“ ist hier nicht sichtbar, sondern ein internes, prädiktives Modell, das Agenten befähigt, mehrere Schritte im Voraus zu planen. LeCun strebt damit eine fundamentale Erweiterung über LLMs hinaus an – weg von der Textvorhersage, hin zu einer kognitiven Architektur, die Handeln und Verstehen ermöglicht. DeepMind hingegen positioniert Genie 3 als Brücke zwischen beiden Welten. Es generiert kontinuierliche, interaktive Videos, in denen Benutzer oder KI-Agenten agieren können – etwa, dass es regnet, wenn man es sagt. Die Welt ist dynamisch, Objekte bleiben erhalten, und die Simulation hält sich über mehrere Sekunden. Sie dient als Trainingsumgebung für Roboter und KI-Agenten, bevor sie in der realen Welt eingesetzt werden. Genie 3 liegt somit zwischen dem visuellen Output von Marble und dem kognitiven Modell von LeCun: Es ist ein Simulations-Engine, die sowohl für Menschen als auch für Lernprozesse nützlich ist. Die drei Ansätze zeigen, dass „Weltmodell“ kein einheitliches Konzept ist, sondern eine Sammlung unterschiedlicher Visionen: Einmal als Frontend-Tool für Menschen, einmal als Simulationsplattform für Agenten, und einmal als interne kognitive Architektur. Die Verwirrung entsteht nicht aus Fehldeutung, sondern aus der Ambition, eine gemeinsame Sprache für eine noch unvollständige Zukunft zu schaffen. Bis die Begriffe sich klären, lohnt es sich, drei Fragen zu stellen: Ist das Modell für Menschen sichtbar? Gibt es statische Assets, Echtzeit-Video oder latente Zustände? Und merkt das System, wenn etwas verändert wird – über einen Frame hinaus? In der Praxis zeigt sich: Marble ist ein beeindruckendes Werkzeug für 3D-Content, aber kein Weltmodell im kognitiven Sinne. LeCuns Vision bleibt theoretisch und langfristig, doch sie könnte die Grundlage für eine echte KI-Intelligenz sein. Genie 3 hingegen ist bereits heute eine praktikable Brücke – ein Simulationsraum, der die Zukunft der KI-Trainingsszenarien vorwegnimmt. Die drei Beteiligten arbeiten nicht am selben Ziel, sondern an verschiedenen Stufen desselben großen Traums: eine Maschine, die die Welt nicht nur sieht, sondern versteht.

Verwandte Links