HyperAIHyperAI
vor 2 Monaten

Die Brücke zwischen 2D und 3D Visueller Fragebeantwortung: Ein Fusionsansatz für 3D VQA

Mo, Wentao ; Liu, Yang
Die Brücke zwischen 2D und 3D Visueller Fragebeantwortung: Ein Fusionsansatz für 3D VQA
Abstract

Im Bereich der 3D-Visual Question Answering (3D VQA) behindern die Knappheit vollständig annotierter Daten und die begrenzte Vielfalt des visuellen Inhalts die Generalisierung auf neue Szenen und 3D-Konzepte (z.B. werden in den Datensätzen ScanQA und SQA nur etwa 800 Szenen verwendet). Aktuelle Ansätze ergänzen die 3D-Schlussfolgerung mit 2D-Informationen. Allerdings stellen diese Methoden Herausforderungen dar: Entweder verwenden sie top-down 2D-Ansichten, die übermäßig komplexe und manchmal frageunabhängige visuelle Hinweise einführen, oder sie basieren auf global aggregierten Szenen-/Bild-Level-Darstellungen aus 2D-VLMs, wodurch die feinkörnigen Vision-Sprache-Korrelationen verloren gehen. Um diese Einschränkungen zu überwinden, nutzt unser Ansatz ein fragenbedingtes Verfahren zur Auswahl von 2D-Ansichten, das semantisch relevante 2D-Eingaben für wichtige visuelle Hinweise identifiziert. Wir integrieren dann dieses 2D-Wissen in das 3D-VQA-System durch eine zweigeteilte Transformer-Struktur. Diese Struktur, die ein Twin-Transformer-Design aufweist, kombiniert kompakt die 2D- und 3D-Modalitäten und erfasst feinkörnige Korrelationen zwischen den Modalitäten, was es ihnen ermöglicht, sich gegenseitig zu ergänzen. Durch die Integration der oben genannten Mechanismen präsentieren wir BridgeQA, das eine neue Perspektive auf multimodale Transformer-basierte Architekturen für 3D-VQA bietet. Experimente bestätigen, dass BridgeQA den aktuellen Stand der Technik in 3D-VQA-Datensätzen erreicht und bestehende Lösungen deutlich übertreffen kann. Der Quellcode ist unter $\href{https://github.com/matthewdm0816/BridgeQA}{\text{dieser URL}}$ verfügbar.

Die Brücke zwischen 2D und 3D Visueller Fragebeantwortung: Ein Fusionsansatz für 3D VQA | Neueste Forschungsarbeiten | HyperAI