vor 6 Monaten

Zusammenfassung

Wir stellen M3-Agent vor, einen neuartigen multimodalen Agenten-Framework mit Langzeitgedächtnis. Ähnlich wie Menschen kann M3-Agent Echtzeit-Visions- und Audiodaten verarbeiten, um sein Langzeitgedächtnis aufzubauen und fortlaufend zu aktualisieren. Neben epischem Gedächtnis entwickelt es zudem semantisches Gedächtnis, wodurch es im Laufe der Zeit Weltwissen ansammeln kann. Sein Gedächtnis ist in einer entitätszentrierten, multimodalen Struktur organisiert, was eine tiefere und konsistentere Wahrnehmung der Umgebung ermöglicht. Auf Basis einer Anweisung führt M3-Agent autonom mehrschrittige, iterative Schlussfolgerungen durch und ruft relevante Informationen aus dem Gedächtnis ab, um die Aufgabe zu erfüllen. Um die Wirksamkeit des Gedächtnisses und des gedächtnisbasierten Schließens bei multimodalen Agenten zu evaluieren, entwickeln wir M3-Bench, eine neue Benchmark für Fragebeantwortung an Langvideos. M3-Bench besteht aus 100 neu aufgenommenen Realwelt-Videos aus Sicht eines Roboters (M3-Bench-robot) sowie aus 929 webbasierten Videos aus vielfältigen Szenarien (M3-Bench-web). Wir haben Frage-Antwort-Paare annotiert, die Schlüsselkompetenzen für Anwendungen von Agenten testen, wie z. B. die Verständnisfähigkeit von Menschen, die Extraktion allgemeiner Kenntnisse und die crossmodale Schlussfolgerung. Experimentelle Ergebnisse zeigen, dass M3-Agent, der mittels Verstärkungslernen trainiert wurde, die stärkste Baseline – einen Prompting-Agenten mit Gemini-1.5-pro und GPT-4o – übertrifft und bei M3-Bench-robot, M3-Bench-web und VideoMME-long jeweils um 6,7 %, 7,7 % und 5,3 % höhere Genauigkeit erreicht. Unsere Arbeit trägt zur Entwicklung multimodaler Agenten mit menschenähnlichem Langzeitgedächtnis bei und liefert wertvolle Erkenntnisse für deren praktische Gestaltung. Modell, Code und Daten sind unter https://github.com/bytedance-seed/m3-agent verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Agent

Reasoning

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Lin Long Yichen He Wentao Ye Yiyuan Pan Yuan Lin Hang Li Junbo Zhao Wei Li

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Agent

Reasoning

Multimodale Darstellung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Lin Long Yichen He Wentao Ye Yiyuan Pan Yuan Lin Hang Li Junbo Zhao Wei Li

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis

Lin Long Yichen He Wentao Ye Yiyuan Pan Yuan Lin Hang Li Junbo Zhao Wei Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis

Lin Long Yichen He Wentao Ye Yiyuan Pan Yuan Lin Hang Li Junbo Zhao Wei Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodales Agens mit Langzeitgedächtnis

Lin Long Yichen He Wentao Ye Yiyuan Pan Yuan Lin Hang Li Junbo Zhao Wei Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters