vor 19 Tagen

Malleable 2.5D-Faltung: Lernen von Empfindlichkeitsfeldern entlang der Tiefenachse für die RGB-D-Szenenanalyse

Yajie Xing, Jingbo Wang, Gang Zeng

Abstract

Tiefendaten liefern geometrische Informationen, die Fortschritte bei RGB-D-Szenenparsungsaufgaben ermöglichen können. Mehrere neuere Arbeiten schlagen RGB-D-Faltungsoperatoren vor, die Empfindlichkeitsfelder entlang der Tiefenachse konstruieren, um 3D-Nachbarschaftsbeziehungen zwischen Pixeln zu erfassen. Diese Methoden definieren jedoch die Tiefenempfindlichkeitsfelder vorab durch Hyperparameter, wodurch sie stark von der Parameterwahl abhängen. In diesem Artikel stellen wir einen neuartigen Operator namens malleable 2.5D-Faltung vor, der das Empfindlichkeitsfeld entlang der Tiefenachse lernen kann. Eine malleable 2.5D-Faltung verfügt über ein oder mehrere 2D-Faltungskerne. Unsere Methode weist jedem Pixel jeweils einen der Kerne oder keinen davon basierend auf den relativen Tiefenunterschieden zu, wobei der Zuweisungsprozess in einer differenzierbaren Form formuliert ist, sodass er mittels Gradientenabstieg gelernt werden kann. Der vorgeschlagene Operator arbeitet auf herkömmlichen 2D-Funktionsebenen und kann nahtlos in bereits vortrainierte CNNs integriert werden. Wir führen umfangreiche Experimente auf zwei anspruchsvollen RGB-D-Semantiksegmentierungsdatensätzen, NYUDv2 und Cityscapes, durch, um die Wirksamkeit und Generalisierungsfähigkeit unserer Methode zu validieren.