HyperAI
Back to Headlines

Kleine Gruppe von KI-Forschern entwickelt „Weltmodelle“ als Sprachalternativ.

vor 13 Tagen

Top-KI-Forscher sagen, Sprache sei begrenzend. Hier ist das neue Modell, das sie entwickeln. Fei-Fei Li, eine Pionierin im Bereich der Künstlichen Intelligenz (KI), arbeitet daran, ein „Weltmodell“ zu entwickeln, das auf Daten trainiert wird, die über reine Sprache hinausgehen. Während KI-Unternehmen wie OpenAI, Anthropic und große Technologieunternehmen Milliarden investieren, um fortschrittliche Sprachmodelle zu bauen, arbeiten einige Forscher an der nächsten großen Innovation. Fei-Fei Li, Professorin an der Stanford University und berühmt für die Erfindung von ImageNet, sowie Yann LeCun, Chef-KI-Wissenschaftler bei Meta, entwickeln „Weltmodelle“. Im Gegensatz zu großen Sprachmodellen, die ihre Ausgaben auf statistischen Beziehungen zwischen Wörtern und Phrasen in ihren Trainingsdaten basieren, sollen Weltmodelle Ereignisse vorhersagen, indem sie sich auf die mentalen Konstrukte stützen, die Menschen von ihrer Umwelt bilden. „Sprache existiert nicht in der Natur“, sagte Li in einer jüngsten Episode des Podcasts von Andreessen Horowitz. „Menschen tun nicht nur Überleben, leben und arbeiten, sondern bauen auch Zivilisationen, die über Sprache hinausgehen.“ Computerwissenschaftler Jay Wright Forrester erklärte in seinem Aufsatz „Counterintuitive Behavior of Social Systems“ aus dem Jahr 1971, warum mentale Modelle für menschliches Verhalten entscheidend sind: Jeder von uns nutzt ständig Modelle. In Privatleben und Business verwenden wir intuitiv Modelle zur Entscheidungsfindung. Die mentalen Bilder in unserem Kopf sind Modelle. Sie enthalten keine realen Familien, Unternehmen, Städte, Regierungen oder Länder. Wir nutzen selektierte Konzepte und Beziehungen, um reale Systeme zu repräsentieren. Alle Entscheidungen werden auf der Grundlage von Modellen getroffen. Das bedeutet, dass KI-Systeme, um menschliche Intelligenz zu erreichen oder zu übertreffen, ebenfalls mentale Modelle bilden müssen. Li hat dieses Ziel durch World Labs verfolgt, das sie 2024 mit einer ersten Finanzierung von 230 Millionen Dollar von Risikokapitalgebern wie Andreessen Horowitz, New Enterprise Associates und Radical Ventures gegründet hat. „Wir zielen darauf ab, KI-Modelle vom zweidimensionalen Pixelbereich zu den vollständigen dreidimensionalen Welten – sowohl virtuellen als auch realen – zu erheben, sie damit mit einem räumlichen Verständnis zu versehen, das so reichhaltig ist wie unser eigenes“, heißt es auf der Website von World Labs. Li erklärte in der No Priors-Podcast-Serie, dass räumliche Intelligenz „die Fähigkeit ist, dreidimensionale Welten zu verstehen, zu denken, zu interagieren und zu generieren“. Dies ist besonders wichtig, da die Welt grundlegend dreidimensional ist. Sie sieht Anwendungsmöglichkeiten für Weltmodelle in kreativen Bereichen, Robotik oder in Gebieten, die unendliche Universen erfordern. Ähnlich wie Meta, Anduril und andere wichtige Akteure aus dem Silicon Valley könnten solche Modelle Fortschritte in militärischen Anwendungen ermöglichen, indem sie Soldaten helfen, ihre Umgebung besser wahrzunehmen und die nächsten Schritte der Feinde vorauszusehen. Das Hauptproblem bei der Entwicklung von Weltmodellen ist jedoch der Mangel an ausreichenden Daten. Während Sprache seit Jahrhunderten verfeinert und dokumentiert wurde, ist räumliche Intelligenz weniger entwickelt. „Wenn ich Sie jetzt bitte, die Augen zu schließen und ein 3D-Modell Ihrer Umgebung zu zeichnen oder zu bauen, ist das nicht so einfach“, sagte Li im No Priors-Podcast. „Wir besitzen noch nicht die Fähigkeit, extrem komplexe Modelle zu generieren, bis wir trainiert werden.“ Daher ist es notwendig, immer anspruchsvollere Datenverarbeitungstechniken, Datenerfassung, Datenbearbeitung und Synthese zu verwenden, um glaubhafte Weltmodelle zu erstellen. Auch bei Meta arbeitet Yann LeCun mit einem kleinen Team an einem ähnlichen Projekt. Das Team nutzt Videodaten, um Modelle zu trainieren, und führt Simulationen durch, die die Videos auf verschiedenen Ebenen abstrahieren. „Die grundlegende Idee ist, dass man nicht auf der Pixel-Ebene vorhersagt. Man trainiert ein System, um eine abstrakte Darstellung des Videos zu erzeugen, damit man Vorhersagen in dieser abstrakten Darstellung treffen kann. Dadurch hoffen wir, alle Details zu eliminieren, die nicht vorhergesagt werden können“, erklärte LeCun beim AI Action Summit in Paris in diesem Jahr. Dies ermöglicht eine einfachere Menge an Bausteinen, um Veränderungen der Welt zu einem bestimmten Zeitpunkt abzubilden. LeCun, wie Li, glaubt, dass diese Modelle der einzige Weg sind, wirklich intelligente KI zu schaffen. „Wir brauchen KI-Systeme, die neue Aufgaben sehr schnell lernen können. Sie müssen die physische Welt verstehen – nicht nur Text und Sprache, sondern die echte Welt – und einige Ebene von gesundem Menschenverstand haben, Fähigkeiten zum Denken und Planen, sowie dauerhaften Gedächtnis – all das, was wir von intelligenten Entitäten erwarten“, sagte er kürzlich an der National University of Singapore. Industriefachleute beurteilen diese Entwicklung als bahnbrechend, obwohl es noch viele technische Hürden zu meistern gibt. Weltmodelle könnten die KI-Entwicklung signifikant vorantreiben und dabei helfen, KI-Systeme zu schaffen, die nicht nur sprachliche, sondern auch räumliche und kognitive Fähigkeiten besitzen. Unternehmen wie World Labs und Meta setzen großes Vertrauen in das Potenzial dieser neuen Ansätze, um die Grenzen der aktuellen KI-Modelle zu überschreiten.

Related Links