Command Palette
Search for a command to run...
VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln

Abstract
Aktuelle Vision-Sprache-Aktion (VLA)-Modelle sind oft durch ein starres, statisches Interaktionsparadigma eingeschränkt, das die gleichzeitige Wahrnehmung, das Hören, Sprechen und Handeln sowie die dynamische Behandlung von Echtzeit-Interruptionen durch den Benutzer nicht ermöglicht. Dies behindert eine nahtlose, körperlich verankerte Zusammenarbeit und führt zu einer unflexiblen und reaktionsunfähigen Benutzererfahrung. Um diese Limitationen zu überwinden, stellen wir VITA-E vor, einen neuartigen Rahmen für körperlich verankerte Interaktionen, der sowohl eine gleichzeitige Verhaltensausführung als auch nahezu Echtzeit-Interruptionen ermöglicht. Der Kern unseres Ansatzes ist eine Dual-Modell-Architektur, bei der zwei parallele VLA-Instanzen als „Active Model“ (aktives Modell) und „Standby Model“ (Standby-Modell) agieren. Dadurch kann das körperlich verankerte Agens die Umgebung beobachten, Benutzersprache hören, sprachliche Antworten geben und Aktionen ausführen – alle gleichzeitig und unterbrechbar –, wodurch menschenähnliche Multitasking-Fähigkeiten nachgeahmt werden. Zudem schlagen wir ein „Modell als Controller“-Paradigma vor, bei dem wir das VLM so feinabstimmen, dass es spezielle Token generiert, die als direkte Systembefehle fungieren und somit die Modell-Reasoning-Fähigkeiten eng mit dem Systemverhalten verbinden. Experimente an einer physischen humanoiden Plattform zeigen, dass VITA-E komplexe interaktive Szenarien zuverlässig bewältigen kann. Unser Framework ist mit verschiedenen Dual-System-VLA-Modellen kompatibel und erreicht eine extrem hohe Erfolgsquote bei Not-Aus-Interruptionen und Sprachinterruptionen, während gleichzeitig eine gleichzeitige Ausführung von Sprache und Aktion gelingt. Dies markiert einen entscheidenden Schritt hin zu natürlicheren und leistungsfähigeren körperlich verankerten Assistenten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.