Progressiv gelenktes Alternativ-Verfeinerungsnetzwerk für die Detektion von auffälligen Objekten in RGB-D-Bildern

In dieser Arbeit streben wir danach, ein effizientes und kompaktes tiefes Netzwerk für die Erkennung von auffälligen Objekten in RGB-D-Bildern zu entwickeln, wobei das Tiefenbild zusätzliche Informationen liefert, um die Leistung in komplexen Szenarien zu verbessern. Ausgehend von einer groben anfänglichen Vorhersage durch einen mehrskaligen Residualblock schlagen wir ein schrittweise geleitetes alternierendes Verfeinerungsnetzwerk vor, um diese Vorhersage zu verfeinern. Anstatt eines auf ImageNet vortrainierten Backbone-Netzwerks zu verwenden, bauen wir zunächst einen leichten Tiefenstrom auf, der von Grund auf gelernt wird. Dies ermöglicht es, zusätzliche Merkmale effizienter mit weniger Redundanz zu extrahieren. Im Anschluss unterscheiden wir uns von den bestehenden Fusionsmethoden dadurch, dass RGB- und Tiefenmerkmale abwechselnd in die vorgeschlagenen geleiteten Residualblöcke (GR-Blöcke) eingespeist werden, um ihre gegenseitige Degradation zu reduzieren. Durch die Zuweisung fortschreitender Leitung in den gestapelten GR-Blöcken innerhalb jeder Seitenausgabe können Fehldetektionen und fehlende Teile gut korrigiert werden. Umfangreiche Experimente auf sieben Benchmark-Datensätzen zeigen, dass unser Modell bestehende state-of-the-art-Ansätze deutlich übertrifft und gleichzeitig Vorteile hinsichtlich Effizienz (71 FPS) und Modellgröße (64,9 MB) bietet.