HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Tag

Spatial-SSRL: Verbesserung des räumlichen Verständnisses durch selbstüberwachtes Verstärkungslernen

Yuhong Liu Beichen Zhang Yuhang Zang Yuhang Cao Long Xing Xiaoyi Dong Haodong Duan Dahua Lin Jiaqi Wang

Spatial-SSRL: Verbesserung des räumlichen Verständnisses durch selbstüberwachtes Verstärkungslernen

Abstract

Das räumliche Verständnis bleibt eine Schwäche von großen Vision-Sprache-Modellen (LVLMs). Bestehende Ansätze zur überwachten Feinabstimmung (SFT) sowie neuere Verfahren des Verstärkenden Lernens mit überprüfbaren Belohnungen (RLVR) beruhen auf kostspieliger Überwachung, spezialisierten Werkzeugen oder eingeschränkten Umgebungen, was ihre Skalierbarkeit einschränkt. Wir stellen Spatial-SSRL vor, ein selbstlernendes RL-Paradigma, das überprüfbare Signale direkt aus gewöhnlichen RGB- oder RGB-D-Bildern ableitet. Spatial-SSRL formulierte automatisch fünf Vorläuferaufgaben, die sowohl 2D- als auch 3D-räumliche Strukturen erfassen: Wiederherstellung der Reihenfolge vertauschter Bildpatches, Erkennung gespiegelter Patches, Inpainting von ausgeschnittenen Patches, Ordnung der regionalen Tiefeninformation sowie Vorhersage relativer 3D-Positionen. Diese Aufgaben liefern eine echte Referenz (Ground Truth), die leicht überprüfbar ist und keiner menschlichen oder LVLM-basierten Annotation bedarf. Die Ausbildung an unseren Aufgaben verbessert die räumliche Schlussfolgerung erheblich und bewahrt gleichzeitig allgemeine visuelle Fähigkeiten. Auf sieben Benchmarks für räumliches Verständnis in Bild- und Videomodi erzielt Spatial-SSRL im Durchschnitt eine Genauigkeitssteigerung von 4,63 % (3B) und 3,89 % (7B) gegenüber den Qwen2.5-VL-Baselines. Unsere Ergebnisse zeigen, dass einfache, inhärente Überwachung die Skalierung von RLVR ermöglicht und einen praktikablen Weg zu stärkerer räumlicher Intelligenz in LVLMs eröffnet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp