HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen, Objekte zu lokalisieren, verbessert das räumliche Schließen bei visuellen LLMs

Kanchana Ranasinghe Satya Narayan Shukla Omid Poursaeed Michael S. Ryoo Tsung-Yu Lin

Zusammenfassung

Die Integration großer Sprachmodelle (LLMs) in Aufgaben des visuellen Bereichs hat visuelle Sprachmodelle (V-LLMs) hervorgebracht, die herausragende Leistungen in visuell-sprachlichen Aufgaben erzielen, insbesondere bei der visuellen Fragebeantwortung (VQA). Dennoch zeigen bestehende V-LLMs (z. B. BLIP-2, LLaVA) eine schwache räumliche Schlussfolgerungsfähigkeit und geringe Lokalisierungswahrnehmung. Trotz der Erzeugung hochdetaillierter und ausführlicher Textantworten versagen diese Modelle bei einfachen Aufgaben wie der Unterscheidung zwischen links und rechts. In dieser Arbeit untersuchen wir, wie durch instruktionsbasierte Feinabstimmung auf der Basis von Bildraum-Koordinaten räumliche Wahrnehmung in V-LLMs eingeführt werden kann. Wir identifizieren optimale Koordinatendarstellungen, dateneffiziente Feinabstimmungsziele und Strategien zur Generierung von Pseudodaten, die zu einer verbesserten räumlichen Wahrnehmung in V-LLMs führen. Zudem zeigt unser resultierendes Modell eine verbesserte Leistung bei der VQA über Bild- und Videodomänen hinweg, reduziert unerwünschte Halluzinationen und generiert präzisere kontextbezogene Objektbeschreibungen. Experimente an fünf visuell-sprachlichen Aufgaben mit insgesamt 14 unterschiedlichen Datensätzen belegen eindeutig die verbesserte Leistungsfähigkeit unseres vorgeschlagenen Ansatzes.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp