HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen

Blenden Sie Ihren VLA nicht aus: Anpassung visueller Darstellungen für OOD-Verallgemeinerung

Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

Blenden Sie Ihren VLA nicht aus: Anpassung visueller Darstellungen für OOD-Verallgemeinerung

Abstract

Der wachsende Erfolg von Vision-Language-Action-Modellen (VLA) beruht auf der Aussicht, dass vortrainierte Vision-Language-Modelle (VLM) Agenten mit übertragbarem Weltwissen und visueller-sprachlicher (VL) Grundlage ausstatten können, was die Grundlage für Aktionmodelle mit breiterer Generalisierung bildet. Doch wenn diese VLMs an die Aktionssphäre angepasst werden, bleibt unklar, inwieweit ihre ursprünglichen VL-Darstellungen und -Kenntnisse erhalten bleiben. In dieser Arbeit führen wir eine systematische Studie zur Erhaltung von Darstellungen während des Feinabstimmens von VLA-Modellen durch und zeigen, dass eine naive Feinabstimmung auf Aktionen zu einer Verschlechterung der visuellen Darstellungen führt. Um diese Effekte zu charakterisieren und zu messen, untersuchen wir die versteckten Darstellungen von VLA und analysieren Aufmerksamkeitskarten. Darüber hinaus entwickeln wir eine Reihe gezielter Aufgaben und Methoden, die VLA-Modelle mit ihren entsprechenden VLM-Modellen vergleichen und Veränderungen in den VL-Fähigkeiten, die durch die Feinabstimmung auf Aktionen hervorgerufen werden, isolieren. Zudem evaluieren wir verschiedene Strategien zur Ausrichtung visueller Darstellungen und stellen eine einfache, aber effektive Methode vor, die die Verschlechterung verringert und eine verbesserte Generalisierung auf außerhalb der Verteilung liegende (OOD) Szenarien ermöglicht. Zusammenfassend klärt unsere Analyse das Spannungsverhältnis zwischen der Feinabstimmung auf Aktionen und der Verschlechterung der VL-Darstellungen und hebt praktikable Ansätze hervor, um die vererbten VL-Fähigkeiten wiederherzustellen. Der Quellcode ist öffentlich verfügbar: https://blind-vla-paper.github.io

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Blenden Sie Ihren VLA nicht aus: Anpassung visueller Darstellungen für OOD-Verallgemeinerung | Forschungsarbeiten | HyperAI