Eine Übersicht über Vision-Sprache-Aktion-Modelle: Eine Perspektive der Aktionstokenisierung

Die bemerkenswerten Fortschritte von Modellen zur Grundlage von Vision und Sprache im Bereich multimodales Verständnis, Schließen und Generierung haben zunehmende Bemühungen angeregt, diese Intelligenz in die physische Welt zu übertragen, was den Aufschwung von Vision-Sprache-Aktion (VLA) Modellen fördert. Trotz scheinbar unterschiedlicher Ansätze beobachten wir, dass aktuelle VLA-Modelle unter einem einheitlichen Rahmen zusammengefasst werden können: Vision- und Spracheingaben werden durch eine Reihe von VLA-Modulen verarbeitet, wodurch eine Kette von Aktionstoken erzeugt wird, die schrittweise mehr anwendungsnahes und handlungsfähiges Wissen kodieren und letztlich ausführbare Aktionen generieren. Wir stellen ferner fest, dass die Hauptunterscheidungsmerkmale der VLA-Modelle darin liegen, wie Aktionstoken formuliert werden, was in folgende Kategorien eingeteilt werden kann: sprachliche Beschreibung, Code, Affordanz (Affordance), Trajektorie (Trajectory), Zielzustand (Goal State), latente Darstellung (Latent Representation), rohe Aktion (Raw Action) und Schließen (Reasoning). Allerdings fehlt es noch an umfassendem Verständnis bezüglich der Aktionstoken, was die effektive Entwicklung von VLA-Modellen erheblich behindert und zukünftige Richtlinien verschleierte. Daher zielt dieser Überblick darauf ab, bestehende VLA-Forschung unter dem Aspekt der Tokenisierung von Aktionen zu kategorisieren und zu interpretieren, die Stärken und Schwächen jedes Tokentyps herauszuarbeiten sowie Verbesserungsbereiche zu identifizieren. Durch diese systematische Rezension und Analyse bieten wir einen synthetischen Ausblick auf die breitere Evolution der VLA-Modelle, heben unerforschte aber vielversprechende Richtungen hervor und leisten einen Beitrag zur Orientierung für zukünftige Forschung, in der Hoffnung, das Feld näher an allgemeiner Intelligenz heranzuführen.