HyperAIHyperAI

Command Palette

Search for a command to run...

vor 21 Tagen

BEAR: Benchmarking und Verbesserung multimodaler Sprachmodelle für atomare verkörperte Fähigkeiten

BEAR: Benchmarking und Verbesserung multimodaler Sprachmodelle für atomare verkörperte Fähigkeiten

Abstract

Embodied capabilities bezeichnen eine Reihe grundlegender Fähigkeiten eines Agents, um die physische Welt wahrzunehmen, zu verstehen und mit ihr zu interagieren. Obwohl multimodale große Sprachmodelle (MLLMs) als embodied Agents vielversprechend erscheinen, bleibt die umfassende und systematische Bewertung ihrer embodied capabilities bisher untererforscht, da bestehende Benchmarks vor allem auf spezifische Domänen wie Planung oder räumliches Verständnis fokussieren. Um diese Lücke zu schließen, stellen wir BEAR vor – einen umfassenden und fein granularen Benchmark, der MLLMs auf atomare embodied capabilities evaluiert. BEAR umfasst 4.469 abwechselnde Bild-Videotext-Einträge über 14 Domänen in sechs Kategorien, darunter Aufgaben vom niedrigen Level des Zeigens und der Trajektorieninterpretation bis hin zur hohen Ebene der Planung. Ausführliche Evaluierungsergebnisse von 20 repräsentativen MLLMs offenbaren deren anhaltende Limitationen in allen Bereichen von embodied capabilities. Um diese Defizite zu überwinden, schlagen wir BEAR-Agent vor, einen multimodalen, dialogfähigen Agenten, der vortrainierte Visionmodelle integriert, um die Wahrnehmung, 3D-Verständnis und Planungsfähigkeiten von MLLMs zu stärken. BEAR-Agent verbessert die Leistung von MLLMs signifikant in vielfältigen embodied capabilities innerhalb des BEAR-Benchmarks, erzielt dabei eine absolute Steigerung um 9,12 Prozent und eine relative Verbesserung um 17,5 Prozent bei GPT-5. Zudem zeigen unsere Experimente, dass die Verbesserung der embodied capabilities von MLLMs auch auf embodied Tasks in simulierten Umgebungen von Vorteil ist. Projekt-Website: https://bear-official66.github.io/

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BEAR: Benchmarking und Verbesserung multimodaler Sprachmodelle für atomare verkörperte Fähigkeiten | Forschungsarbeiten | HyperAI