Command Palette
Search for a command to run...
VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln
VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln
Zusammenfassung
Aktuelle Vision-Sprache-Aktion (VLA)-Modelle sind oft durch ein starres, statisches Interaktionsparadigma eingeschränkt, das die gleichzeitige Wahrnehmung, das Hören, Sprechen und Handeln sowie die dynamische Behandlung von Echtzeit-Interruptionen durch den Benutzer nicht ermöglicht. Dies behindert eine nahtlose, körperlich verankerte Zusammenarbeit und führt zu einer unflexiblen und reaktionsunfähigen Benutzererfahrung. Um diese Limitationen zu überwinden, stellen wir VITA-E vor, einen neuartigen Rahmen für körperlich verankerte Interaktionen, der sowohl eine gleichzeitige Verhaltensausführung als auch nahezu Echtzeit-Interruptionen ermöglicht. Der Kern unseres Ansatzes ist eine Dual-Modell-Architektur, bei der zwei parallele VLA-Instanzen als „Active Model“ (aktives Modell) und „Standby Model“ (Standby-Modell) agieren. Dadurch kann das körperlich verankerte Agens die Umgebung beobachten, Benutzersprache hören, sprachliche Antworten geben und Aktionen ausführen – alle gleichzeitig und unterbrechbar –, wodurch menschenähnliche Multitasking-Fähigkeiten nachgeahmt werden. Zudem schlagen wir ein „Modell als Controller“-Paradigma vor, bei dem wir das VLM so feinabstimmen, dass es spezielle Token generiert, die als direkte Systembefehle fungieren und somit die Modell-Reasoning-Fähigkeiten eng mit dem Systemverhalten verbinden. Experimente an einer physischen humanoiden Plattform zeigen, dass VITA-E komplexe interaktive Szenarien zuverlässig bewältigen kann. Unser Framework ist mit verschiedenen Dual-System-VLA-Modellen kompatibel und erreicht eine extrem hohe Erfolgsquote bei Not-Aus-Interruptionen und Sprachinterruptionen, während gleichzeitig eine gleichzeitige Ausführung von Sprache und Aktion gelingt. Dies markiert einen entscheidenden Schritt hin zu natürlicheren und leistungsfähigeren körperlich verankerten Assistenten.