HyperAIHyperAI
vor 6 Tagen

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis

Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis
Abstract

Wir stellen M3-Agent vor, einen neuartigen multimodalen Agenten-Frame­work mit Langzeitgedächtnis. Ähnlich wie Menschen kann M3-Agent Echtzeit-Visions- und Audiodaten verarbeiten, um sein Langzeitgedächtnis aufzubauen und fortlaufend zu aktualisieren. Neben epischem Gedächtnis entwickelt es zudem semantisches Gedächtnis, wodurch es im Laufe der Zeit Weltwissen ansammeln kann. Sein Gedächtnis ist in einer entitätszentrierten, multimodalen Struktur organisiert, was eine tiefere und konsistentere Wahrnehmung der Umgebung ermöglicht. Auf Basis einer Anweisung führt M3-Agent autonom mehrschrittige, iterative Schlussfolgerungen durch und ruft relevante Informationen aus dem Gedächtnis ab, um die Aufgabe zu erfüllen. Um die Wirksamkeit des Gedächtnisses und des gedächtnisbasierten Schließens bei multimodalen Agenten zu evaluieren, entwickeln wir M3-Bench, eine neue Benchmark für Fragebeantwortung an Langvideos. M3-Bench besteht aus 100 neu aufgenommenen Realwelt-Videos aus Sicht eines Roboters (M3-Bench-robot) sowie aus 929 webbasierten Videos aus vielfältigen Szenarien (M3-Bench-web). Wir haben Frage-Antwort-Paare annotiert, die Schlüsselkompetenzen für Anwendungen von Agenten testen, wie z. B. die Verständnisfähigkeit von Menschen, die Extraktion allgemeiner Kenntnisse und die crossmodale Schlussfolgerung. Experimentelle Ergebnisse zeigen, dass M3-Agent, der mittels Verstärkungslernen trainiert wurde, die stärkste Baseline – einen Prompting-Agenten mit Gemini-1.5-pro und GPT-4o – übertrifft und bei M3-Bench-robot, M3-Bench-web und VideoMME-long jeweils um 6,7 %, 7,7 % und 5,3 % höhere Genauigkeit erreicht. Unsere Arbeit trägt zur Entwicklung multimodaler Agenten mit menschenähnlichem Langzeitgedächtnis bei und liefert wertvolle Erkenntnisse für deren praktische Gestaltung. Modell, Code und Daten sind unter https://github.com/bytedance-seed/m3-agent verfügbar.

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis | Neueste Forschungsarbeiten | HyperAI