HyperAIHyperAI
vor 2 Monaten

ScanQA: 3D-Fragebeantwortung für die räumliche Szenenverstehensanalyse

Azuma, Daichi ; Miyanishi, Taiki ; Kurita, Shuhei ; Kawanabe, Motoaki
ScanQA: 3D-Fragebeantwortung für die räumliche Szenenverstehensanalyse
Abstract

Wir schlagen eine neue Aufgabe zur räumlichen Verständnisanalyse in 3D vor, nämlich die 3D-Fragebeantwortung (3D-QA). Bei der 3D-QA-Aufgabe erhalten Modelle visuelle Informationen aus der gesamten 3D-Szene eines reichhaltigen RGB-D-Innenraumscans und beantworten die gegebenen textuellen Fragen über die 3D-Szene. Im Gegensatz zur 2D-Fragebeantwortung von VQA leiden herkömmliche 2D-QA-Modelle an Problemen bei der räumlichen Verständnisanalyse von Objektanordnungen und Richtungen und scheitern bei der Identifikation von Objekten aus den textuellen Fragen in der 3D-QA. Wir schlagen ein Basismodell für die 3D-QA vor, das als ScanQA-Modell bezeichnet wird. In diesem Modell lernt das System einen fusionierten Deskriptor aus 3D-Objektvorschlägen und kodierten Satzeinbettungen. Dieser gelernte Deskriptor verknüpft sprachliche Ausdrücke mit den zugrundeliegenden geometrischen Merkmalen des 3D-Scans und erleichtert die Regression von 3D-Bounding Boxes zur Bestimmung beschriebener Objekte in textuellen Fragen sowie die Ausgabe korrekter Antworten. Wir haben menschlich bearbeitete Frage-Antwort-Paare mit freiformigen Antworten gesammelt, die auf 3D-Objekte in jeder 3D-Szene bezogen sind. Unser neuer ScanQA-Datensatz enthält über 40.000 Frage-Antwort-Paare aus den 800 Innenraumszenen, die dem ScanNet-Datensatz entstammen. Nach bestem Wissen ist die vorgeschlagene 3D-QA-Aufgabe der erste umfangreiche Versuch, objektbezogene Fragebeantwortung in dreidimensionalen Umgebungen durchzuführen.