vor 2 Tagen

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Zusammenfassung

Die Ausstattung körperhafter Agenten mit der Fähigkeit, Aufgaben zu analysieren, physikalische Auswirkungen vorherzusagen und präzise Aktionen zu generieren, ist entscheidend für allgemeine Manipulation. Obwohl neuere Vision-Language-Action-(VLA)-Modelle auf vortrainierten Grundmodelle zurückgreifen, konzentrieren sie sich typischerweise entweder allein auf sprachbasiertes Planen oder visuelle Vorhersage. Diese Ansätze integrieren selten beide Fähigkeiten gleichzeitig, um die Aktionserzeugung zu leiten, was zu suboptimalen Ergebnissen bei komplexen, langfristigen Manipulationsaufgaben führt. Um diese Lücke zu schließen, stellen wir BagelVLA vor, ein einheitliches Modell, das sprachbasiertes Planen, visuelle Vorhersage und Aktionserzeugung in einem einzigen Rahmen integriert. Aus einem vortrainierten, einheitlichen Verständnis- und Generativmodell initiiert, wird BagelVLA so trainiert, dass textuelle Schlussfolgerungen und visuelle Vorhersagen direkt in die Aktionsexekutionsschleife eingebettet werden. Um diese Modalitäten effizient zu koppeln, führen wir Residual Flow Guidance (RFG) ein, das sich auf die aktuelle Beobachtung stützt und eine Einzelschritt-Denoising-Technik nutzt, um prädiktive visuelle Merkmale zu extrahieren und die Aktionserzeugung mit minimaler Latenz zu leiten. Umfassende Experimente zeigen, dass BagelVLA bestehende Baselines auf mehreren simulierten und realen Benchmarks deutlich übertrifft, insbesondere bei Aufgaben, die mehrstufige Schlussfolgerungen erfordern.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Tagen

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Tagen

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

BagelVLA: Verbesserung der Langzeit-Manipulation durch abwechselnde Generierung von Vision-Sprache-Aktion

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

BagelVLA: Verbesserung der Langzeit-Manipulation durch abwechselnde Generierung von Vision-Sprache-Aktion

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

BagelVLA: Verbesserung der Langzeit-Manipulation durch abwechselnde Generierung von Vision-Sprache-Aktion

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang

Yucheng Hu Jianke Zhang Yuanfei Luo Yanjiang Guo Xiaoyu Chen Xinshu Sun Kun Feng Qingzhou Lu Sheng Chen Yangang Zhang