Rel3D: Ein minimales kontrastives Benchmark für die Verankerung räumlicher Beziehungen in 3D

Das Verständnis räumlicher Beziehungen (z.B. "Laptop auf Tisch") in visuellen Eingaben ist sowohl für Menschen als auch für Roboter von großer Bedeutung. Bestehende Datensätze sind jedoch unzureichend, da sie fehlen an umfangreichen, hochwertigen 3D-Referenzinformationen, die für das Lernen von räumlichen Beziehungen entscheidend sind. In dieser Arbeit schließen wir diese Lücke durch den Aufbau von Rel3D: dem ersten umfangreichen, menschlich annotierten Datensatz zur Verankerung räumlicher Beziehungen in 3D. Rel3D ermöglicht es, die Effektivität von 3D-Informationen bei der Vorhersage räumlicher Beziehungen anhand umfangreicher menschlicher Daten zu quantifizieren. Darüber hinaus schlagen wir eine minimal kontrastierende Datensammlung vor – eine neuartige Crowdsourcing-Methode zur Reduzierung des Datensatzverzerrungs. Die 3D-Szenen in unserem Datensatz kommen in minimal kontrastierenden Paaren vor: Zwei Szenen eines Paares sind fast identisch, aber eine räumliche Beziehung gilt in der einen und nicht in der anderen. Wir führen empirische Validierungen durch, die zeigen, dass minimal kontrastierende Beispiele Probleme mit aktuellen Relationserkennungsmodellen diagnostizieren können und zudem zu effizienterem Training führen. Der Quellcode und die Daten sind unter https://github.com/princeton-vl/Rel3D verfügbar.