vor 3 Monaten

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang

Zusammenfassung

Aktuelle Vision-Sprache-Aktion (VLA)-Modelle sind oft durch ein starres, statisches Interaktionsparadigma eingeschränkt, das die gleichzeitige Wahrnehmung, das Hören, Sprechen und Handeln sowie die dynamische Behandlung von Echtzeit-Interruptionen durch den Benutzer nicht ermöglicht. Dies behindert eine nahtlose, körperlich verankerte Zusammenarbeit und führt zu einer unflexiblen und reaktionsunfähigen Benutzererfahrung. Um diese Limitationen zu überwinden, stellen wir VITA-E vor, einen neuartigen Rahmen für körperlich verankerte Interaktionen, der sowohl eine gleichzeitige Verhaltensausführung als auch nahezu Echtzeit-Interruptionen ermöglicht. Der Kern unseres Ansatzes ist eine Dual-Modell-Architektur, bei der zwei parallele VLA-Instanzen als „Active Model“ (aktives Modell) und „Standby Model“ (Standby-Modell) agieren. Dadurch kann das körperlich verankerte Agens die Umgebung beobachten, Benutzersprache hören, sprachliche Antworten geben und Aktionen ausführen – alle gleichzeitig und unterbrechbar –, wodurch menschenähnliche Multitasking-Fähigkeiten nachgeahmt werden. Zudem schlagen wir ein „Modell als Controller“-Paradigma vor, bei dem wir das VLM so feinabstimmen, dass es spezielle Token generiert, die als direkte Systembefehle fungieren und somit die Modell-Reasoning-Fähigkeiten eng mit dem Systemverhalten verbinden. Experimente an einer physischen humanoiden Plattform zeigen, dass VITA-E komplexe interaktive Szenarien zuverlässig bewältigen kann. Unser Framework ist mit verschiedenen Dual-System-VLA-Modellen kompatibel und erreicht eine extrem hohe Erfolgsquote bei Not-Aus-Interruptionen und Sprachinterruptionen, während gleichzeitig eine gleichzeitige Ausführung von Sprache und Aktion gelingt. Dies markiert einen entscheidenden Schritt hin zu natürlicheren und leistungsfähigeren körperlich verankerten Assistenten.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 3 Monaten

Agent

Körperliche Intelligenz

Mensch-Computer-Interaktion

Forschungsgebiet

Ansatz/Rahmenwerk

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 3 Monaten

Agent

Körperliche Intelligenz

Mensch-Computer-Interaktion

Forschungsgebiet

Ansatz/Rahmenwerk

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln | Paper | HyperAI

Command Palette

VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang8 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang8 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang8 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang