HyperAIHyperAI

Command Palette

Search for a command to run...

ScanQA: 3D-Fragebeantwortung für die räumliche Szenenverstehensanalyse

Azuma Daichi ; Miyanishi Taiki ; Kurita Shuhei ; Kawanabe Motoaki

Zusammenfassung

Wir schlagen eine neue Aufgabe zur räumlichen Verständnisanalyse in 3D vor, nämlich die 3D-Fragebeantwortung (3D-QA). Bei der 3D-QA-Aufgabe erhalten Modelle visuelle Informationen aus der gesamten 3D-Szene eines reichhaltigen RGB-D-Innenraumscans und beantworten die gegebenen textuellen Fragen über die 3D-Szene. Im Gegensatz zur 2D-Fragebeantwortung von VQA leiden herkömmliche 2D-QA-Modelle an Problemen bei der räumlichen Verständnisanalyse von Objektanordnungen und Richtungen und scheitern bei der Identifikation von Objekten aus den textuellen Fragen in der 3D-QA. Wir schlagen ein Basismodell für die 3D-QA vor, das als ScanQA-Modell bezeichnet wird. In diesem Modell lernt das System einen fusionierten Deskriptor aus 3D-Objektvorschlägen und kodierten Satzeinbettungen. Dieser gelernte Deskriptor verknüpft sprachliche Ausdrücke mit den zugrundeliegenden geometrischen Merkmalen des 3D-Scans und erleichtert die Regression von 3D-Bounding Boxes zur Bestimmung beschriebener Objekte in textuellen Fragen sowie die Ausgabe korrekter Antworten. Wir haben menschlich bearbeitete Frage-Antwort-Paare mit freiformigen Antworten gesammelt, die auf 3D-Objekte in jeder 3D-Szene bezogen sind. Unser neuer ScanQA-Datensatz enthält über 40.000 Frage-Antwort-Paare aus den 800 Innenraumszenen, die dem ScanNet-Datensatz entstammen. Nach bestem Wissen ist die vorgeschlagene 3D-QA-Aufgabe der erste umfangreiche Versuch, objektbezogene Fragebeantwortung in dreidimensionalen Umgebungen durchzuführen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp