vor 15 Tagen

SQA3D: Situierte Fragebeantwortung in 3D-Szenen

Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, Siyuan Huang

Abstract

Wir schlagen eine neue Aufgabe zur Bewertung des Szenenverstehens von eingebetteten Agenten vor: Situated Question Answering in 3D-Szenen (SQA3D). Gegeben eine Szenenkontext (z. B. 3D-Scan) muss der getestete Agent zunächst seine Situation (Position, Orientierung usw.) innerhalb der 3D-Szene gemäß einer textuellen Beschreibung verstehen, anschließend die umgebende Umgebung analysieren und eine Frage im Kontext dieser Situation beantworten. Aufbauend auf 650 Szenen aus ScanNet stellen wir eine Datensammlung mit 6,8 k einzigartigen Situationen bereit, zusammen mit 20,4 k Beschreibungen und 33,4 k vielfältigen Schlussfolgerungsfragen zu diesen Situationen. Diese Fragen untersuchen ein breites Spektrum an Schlussfolgerungsfähigkeiten für einen intelligenten Agenten, von der Verständnis räumlicher Beziehungen über alltägliche Vernunft bis hin zu Navigation und Multi-Hop-Schlussfolgerung. SQA3D stellt eine erhebliche Herausforderung für derzeitige multimodale, insbesondere 3D-orientierte Schlussfolgerungsmodelle dar. Wir evaluieren verschiedene aktuelle State-of-the-Art-Ansätze und stellen fest, dass der beste Ansatz lediglich eine Gesamtpunktzahl von 47,20 % erreicht, während durchschnittliche menschliche Probanden eine Leistung von 90,06 % erzielen. Wir sind überzeugt, dass SQA3D zukünftige Forschung im Bereich eingebetteter KI mit stärkerem Situationsverstehen und Schlussfolgerungsfähigkeit voranbringen wird.