vor 4 Monaten

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang

Zusammenfassung

Embodied capabilities bezeichnen eine Reihe grundlegender Fähigkeiten eines Agents, um die physische Welt wahrzunehmen, zu verstehen und mit ihr zu interagieren. Obwohl multimodale große Sprachmodelle (MLLMs) als embodied Agents vielversprechend erscheinen, bleibt die umfassende und systematische Bewertung ihrer embodied capabilities bisher untererforscht, da bestehende Benchmarks vor allem auf spezifische Domänen wie Planung oder räumliches Verständnis fokussieren. Um diese Lücke zu schließen, stellen wir BEAR vor – einen umfassenden und fein granularen Benchmark, der MLLMs auf atomare embodied capabilities evaluiert. BEAR umfasst 4.469 abwechselnde Bild-Videotext-Einträge über 14 Domänen in sechs Kategorien, darunter Aufgaben vom niedrigen Level des Zeigens und der Trajektorieninterpretation bis hin zur hohen Ebene der Planung. Ausführliche Evaluierungsergebnisse von 20 repräsentativen MLLMs offenbaren deren anhaltende Limitationen in allen Bereichen von embodied capabilities. Um diese Defizite zu überwinden, schlagen wir BEAR-Agent vor, einen multimodalen, dialogfähigen Agenten, der vortrainierte Visionmodelle integriert, um die Wahrnehmung, 3D-Verständnis und Planungsfähigkeiten von MLLMs zu stärken. BEAR-Agent verbessert die Leistung von MLLMs signifikant in vielfältigen embodied capabilities innerhalb des BEAR-Benchmarks, erzielt dabei eine absolute Steigerung um 9,12 Prozent und eine relative Verbesserung um 17,5 Prozent bei GPT-5. Zudem zeigen unsere Experimente, dass die Verbesserung der embodied capabilities von MLLMs auch auf embodied Tasks in simulierten Umgebungen von Vorteil ist. Projekt-Website: https://bear-official66.github.io/

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

BEAR: Benchmarking und Verbesserung multimodaler Sprachmodelle für atomare verkörperte Fähigkeiten

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang10 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

BEAR: Benchmarking und Verbesserung multimodaler Sprachmodelle für atomare verkörperte Fähigkeiten

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang10 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

BEAR: Benchmarking und Verbesserung multimodaler Sprachmodelle für atomare verkörperte Fähigkeiten

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang10 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang