Künstliche Intelligenz in Videos zeigt unzuverlässiges Verhalten bei physikalischen Aufgaben
Neue Forschung zeigt, dass heutige KI-Video-Modelle bei der Modellierung physikalischer Realität erhebliche Schwächen aufweisen. Obwohl diese Systeme in der Lage sind, plausibel erscheinende Videos zu generieren, erweisen sie sich in Tests zur physischen Schlussfolgerung als äußerst inkonsistent. Ein internationales Forscherteam untersuchte mehrere führende Modelle wie Google’s VideoMAE, Meta’s Make-A-Video und Stability AI’s Stable Video Diffusion anhand einer Reihe standardisierter Aufgaben, die das Verständnis von Kausalität, Bewegung, Massenwirkung und Raum-Zeit-Konsistenz prüfen. Dazu gehörten Szenen wie fallende Objekte, Stoßwechsel zwischen Gegenständen oder das Verhalten von Flüssigkeiten in Behältern. Die Ergebnisse waren besorgniserregend: Die Modelle konnten in bis zu 60 Prozent der Fälle grundlegende physikalische Prinzipien missachten – etwa, dass ein Objekt, das aus der Luft fällt, nicht plötzlich nach oben springen sollte, oder dass eine Kugel, die gegen eine Wand prallt, nicht einfach durch sie hindurchgehen darf. In vielen Fällen wurden physikalisch unmögliche Ereignisse generiert, ohne dass die Modelle dies erkannten. Selbst bei einfachen Szenen mit zwei Objekten, die sich berühren, zeigten die Systeme oft inkonsistente Bewegungsverläufe über mehrere Frames hinweg. Die Forscher argumentieren, dass die Modelle nicht wirklich „verstehen“, wie die Welt funktioniert, sondern vielmehr Muster aus riesigen Datensätzen lernen, die oft nur oberflächlich mit physikalischer Realität korrelieren. Sie reagieren auf visuelle Hinweise, ohne ein tiefes kausales Modell der Realität zu besitzen. Dies führt dazu, dass sie bei kleinen Veränderungen in der Eingabe oder bei Szenen, die außerhalb ihres Trainingsdatensatzes liegen, schnell versagen. Ein zentrales Problem liegt in der Art, wie die Modelle trainiert werden: Sie lernen, Videos zu generieren, die „plausibel“ aussehen, nicht aber, ob sie physikalisch korrekt sind. Es fehlen systematische Evaluationssysteme, die solche Fehler erkennen und quantifizieren. Die Studie fordert daher eine Neuausrichtung der Forschung hin zu „physikalisch konsistenten“ Benchmarking-Tests und die Entwicklung von Trainingsmethoden, die kausales Verständnis fördern. Die Ergebnisse werfen ernsthafte Fragen über die Robustheit und Verlässlichkeit von KI-Video-Systemen auf, insbesondere in sicherheitskritischen Anwendungen wie autonome Fahrzeuge, medizinische Simulationen oder industrielle Automatisierung. Selbst wenn die Videos ästhetisch überzeugend sind, kann ihr Inhalt irreführend oder gefährlich sein, wenn er grundlegende physikalische Gesetze ignoriert. Industrieexperten sehen die Studie als wichtigen Meilenstein. „Wir haben bisher übersehen, dass KI-Video-Modelle oft nur Illusionen erzeugen, nicht Verständnis“, sagt Dr. Lena Müller, KI-Forscherin am Max-Planck-Institut für Intelligente Systeme. „Ohne kausales Verständnis bleibt die Technologie auf der Oberfläche.“ Unternehmen wie NVIDIA und DeepMind arbeiten bereits an Ansätzen, physikalische Einschränkungen in die Generierung einzubauen, etwa durch hybride Modelle, die KI mit physikalischen Simulatoren verbinden. Die Entwicklung solcher Systeme könnte entscheidend für die nächste Generation von KI-basierten Simulationen sein.