Lernen der Objektdauerhaftigkeit aus Video

Objektpermanenz ermöglicht es Menschen, über die Position von nicht sichtbaren Objekten zu schließen, indem sie verstehen, dass diese weiterhin existieren, auch wenn sie nicht direkt wahrgenommen werden. Objektpermanenz ist entscheidend für die Bildung eines Weltmodells, da Objekte in natürlichen visuellen Szenen dynamisch gegeneinander verdeckt und ineinander enthalten sein können. Intensive Studien in der Entwicklungspsychologie deuten darauf hin, dass Objektpermanenz eine anspruchsvolle Aufgabe darstellt, die durch umfangreiche Erfahrungen erlernt wird. In diesem Beitrag stellen wir ein Setup zur Lernung von Objektpermanenz aus Daten vor. Wir erklären, warum dieses Lernproblem in vier Komponenten zerlegt werden sollte, bei denen Objekte (1) sichtbar, (2) verdeckt, (3) von einem anderen Objekt enthalten und (4) von einem enthaltenden Objekt getragen sind. Die vierte Teilaufgabe, bei der ein Zielobjekt von einem enthaltenden Objekt getragen wird, ist besonders herausfordernd, da ein System dazu in der Lage sein muss, über die Bewegung eines unsichtbaren Objekts zu inferieren. Anschließend präsentieren wir eine einheitliche tiefe Architektur, die lernt, die Position von Objekten unter diesen vier Szenarien vorherzusagen. Wir evaluieren die Architektur und das System anhand einer neuen Datensammlung basierend auf CATER und stellen fest, dass sie die Leistung früherer Lokalisierungsmethoden sowie verschiedener Baselines übertrifft.