HyperAIHyperAI

Command Palette

Search for a command to run...

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis

Lin Long Yichen He Wentao Ye Yiyuan Pan Yuan Lin Hang Li Junbo Zhao Wei Li

Zusammenfassung

Wir stellen M3-Agent vor, einen neuartigen multimodalen Agenten-Frame­work mit Langzeitgedächtnis. Ähnlich wie Menschen kann M3-Agent Echtzeit-Visions- und Audiodaten verarbeiten, um sein Langzeitgedächtnis aufzubauen und fortlaufend zu aktualisieren. Neben epischem Gedächtnis entwickelt es zudem semantisches Gedächtnis, wodurch es im Laufe der Zeit Weltwissen ansammeln kann. Sein Gedächtnis ist in einer entitätszentrierten, multimodalen Struktur organisiert, was eine tiefere und konsistentere Wahrnehmung der Umgebung ermöglicht. Auf Basis einer Anweisung führt M3-Agent autonom mehrschrittige, iterative Schlussfolgerungen durch und ruft relevante Informationen aus dem Gedächtnis ab, um die Aufgabe zu erfüllen. Um die Wirksamkeit des Gedächtnisses und des gedächtnisbasierten Schließens bei multimodalen Agenten zu evaluieren, entwickeln wir M3-Bench, eine neue Benchmark für Fragebeantwortung an Langvideos. M3-Bench besteht aus 100 neu aufgenommenen Realwelt-Videos aus Sicht eines Roboters (M3-Bench-robot) sowie aus 929 webbasierten Videos aus vielfältigen Szenarien (M3-Bench-web). Wir haben Frage-Antwort-Paare annotiert, die Schlüsselkompetenzen für Anwendungen von Agenten testen, wie z. B. die Verständnisfähigkeit von Menschen, die Extraktion allgemeiner Kenntnisse und die crossmodale Schlussfolgerung. Experimentelle Ergebnisse zeigen, dass M3-Agent, der mittels Verstärkungslernen trainiert wurde, die stärkste Baseline – einen Prompting-Agenten mit Gemini-1.5-pro und GPT-4o – übertrifft und bei M3-Bench-robot, M3-Bench-web und VideoMME-long jeweils um 6,7 %, 7,7 % und 5,3 % höhere Genauigkeit erreicht. Unsere Arbeit trägt zur Entwicklung multimodaler Agenten mit menschenähnlichem Langzeitgedächtnis bei und liefert wertvolle Erkenntnisse für deren praktische Gestaltung. Modell, Code und Daten sind unter https://github.com/bytedance-seed/m3-agent verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp