KI lernt wie ein Baby: durch Beobachten, nicht durch Text
Ein winziger Mensch sitzt in seinem Hochstuhl, greift nach einem Löffel, hält ihn am Rand, lässt ihn fallen – Klirren auf dem Boden. Die Eltern holen ihn auf, und das Spiel beginnt von Neuem. Was wie ein mühsames Spielchen wirkt, ist in Wirklichkeit eine wissenschaftliche Untersuchung: das Kind testet die Gesetze der Physik, insbesondere die Schwerkraft, durch wiederholte Beobachtung. Es baut eine innere Vorstellung von der Welt, nicht durch Worte, sondern durch direkte Erfahrung. Dieses Bild steht im Zentrum einer tiefgreifenden Debatte über die Zukunft der Künstlichen Intelligenz – und wird von Yann LeCun, Chief AI Scientist bei Meta und Turing-Preisträger, als Metapher für einen fundamentalen Wandel verwendet. Heute dominieren autoregressive Sprachmodelle wie ChatGPT, die den nächsten Textabschnitt basierend auf vorherigen Wörtern vorhersagen. Doch LeCun sieht darin eine fundamentale Schwäche: Fehler, die bei jeder Vorhersage klein sind, addieren sich exponentiell. Das führt zu „Halluzinationen“ – plausibel klingenden, aber völlig falschen Aussagen. Selbst mit mehr Daten oder Rechenleistung lässt sich dieser Fehleranstieg nicht stoppen, da die Architektur selbst auf statistischer Vorhersage basiert, nicht auf echtem Verständnis. Text allein ist ein verengtes Fenster auf die Welt: Die gesamte menschliche Schriftkultur umfasst etwa 10¹⁴ Byte. Ein vierjähriges Kind hingegen verarbeitet jährlich 10¹⁴ bis 10¹⁵ Byte visueller Informationen – Bewegung, Raum, Interaktion. Es lernt die Welt durch die Augen. LeCun fordert daher eine Wende: Die nächste Generation von KI muss nicht aus Text, sondern aus Video lernen. Meta hat bereits V-JEPA 2 vorgestellt, ein Modell, das durch das Beobachten von Videos ein „Weltmodell“ entwickelt – eine interne Vorstellung von Physik und Kausalität. Apple arbeitet an ähnlichen Ansätzen wie SlowFast-LLaVA-1.5, das Bewegung und Objekte in langen Videos trennt, um dynamische Erkenntnisse zu gewinnen. Beide Ansätze folgen dem Prinzip des Kindes: zuerst Beobachtung, dann Sprache. Eine KI, die die Welt nicht nur beschreibt, sondern versteht, wie ein Kind, das den Löffel fallen lässt und daraus lernt. Diese Entwicklung könnte weitreichende Folgen haben. Kombiniert mit bestehenden Sprachmodellen könnten solche „Weltmodelle“ unerwartete Fortschritte in Medizin, Klimaforschung oder Robotik ermöglichen – durch gemeinsame Erkenntnisse aus Video und Text. LeCun ist überzeugt: Autoregressive LLMs werden in wenigen Jahren obsolet sein. Die Zukunft gehört nicht den Sprachparlern, sondern den Sinnes-Intelligenzen, die wie Babys die Welt durch die Augen lernen. Industrieexperten sehen in LeCuns Vision eine notwendige Evolution. Die Branche steht vor einer entscheidenden Wahl: weiter auf Text basieren oder in multimodale, sensomotorische KI investieren. Meta und Apple sind bereits auf diesem Weg. Wer jetzt nicht mitzieht, riskiert, auf der falschen Seite der technologischen Wende zu stehen. Die nächste Ära der KI wird nicht von Worten, sondern von Beobachtung geprägt sein – und sie beginnt mit einem einfachen, wiederholten Fall: dem Löffel, der auf den Boden fällt.
