Neuüberlegung der RGB-D-Salient-Objekt-Erkennung: Modelle, Datensätze und große Benchmark-Studien

Die Verwendung von RGB-D-Informationen für die Detektion von auffälligen Objekten wurde in den letzten Jahren intensiv erforscht. Allerdings wurden bislang vergleichsweise wenige Anstrengungen unternommen, um die Detektion von auffälligen Objekten in realen Szenen menschlicher Aktivitäten mit RGB-D zu modellieren. In dieser Arbeit schließen wir diese Lücke durch folgende Beiträge zur Detektion von auffälligen Objekten mit RGB-D:(1) Wir sammeln sorgfältig einen neuen SIP-Datensatz (SIP steht für "salient person"), der etwa 1.000 hochaufgelöste Bilder umfasst, die verschiedene reale Szenen aus verschiedenen Perspektiven, Haltungen, Verdeckungen, Beleuchtungen und Hintergründen abdecken.(2) Wir führen eine groß angelegte (und bisher umfangreichste) Benchmark-Studie durch, bei der moderne Methoden verglichen werden. Dieses wichtige Element fehlte bisher im Bereich und kann als Referenz für zukünftige Forschung dienen. Wir fassen 32 gängige Modelle systematisch zusammen und evaluieren 18 Teile dieser 32 Modelle auf sieben Datensätzen, die insgesamt etwa 97.000 Bilder enthalten.(3) Wir schlagen eine einfache allgemeine Architektur vor, die als Deep Depth-Depurator Network (D3Net) bezeichnet wird. Sie besteht aus einer Tiefendepurator-Einheit (DDU) und einem dreistrahligen Merkmalslernmodul (FLM), das jeweils die Filterung von tiefenbildern niedriger Qualität und das lernbasierte Kreuzmodalitätsmerkmalsextrahieren durchführt. Diese Komponenten bilden eine verschachtelte Struktur und sind sorgfältig darauf ausgelegt, gemeinsam gelernt zu werden. D3Net übertrifft die Leistung aller bisherigen Konkurrenten in allen fünf betrachteten Metriken und dient daher als robustes Modell zur Förderung der Forschung in diesem Bereich. Darüber hinaus zeigen wir, dass D3Net effizient dazu verwendet werden kann, Masken auffälliger Objekte aus realen Szenen zu extrahieren, was Anwendungen zur effektiven Hintergrundänderung ermöglicht – mit einer Geschwindigkeit von 65 Bildern pro Sekunde auf einem einzelnen GPU.Alle Salienzkarten, unser neuer SIP-Datensatz, das D3Net-Modell sowie die Evaluierungswerkzeuge sind öffentlich verfügbar unter: https://github.com/DengPingFan/D3NetBenchmark.