HyperAIHyperAI

Command Palette

Search for a command to run...

Malleable 2.5D-Faltung: Lernen von Empfindlichkeitsfeldern entlang der Tiefenachse für die RGB-D-Szenenanalyse

Yajie Xing Jingbo Wang Gang Zeng

Zusammenfassung

Tiefendaten liefern geometrische Informationen, die Fortschritte bei RGB-D-Szenenparsungsaufgaben ermöglichen können. Mehrere neuere Arbeiten schlagen RGB-D-Faltungsoperatoren vor, die Empfindlichkeitsfelder entlang der Tiefenachse konstruieren, um 3D-Nachbarschaftsbeziehungen zwischen Pixeln zu erfassen. Diese Methoden definieren jedoch die Tiefenempfindlichkeitsfelder vorab durch Hyperparameter, wodurch sie stark von der Parameterwahl abhängen. In diesem Artikel stellen wir einen neuartigen Operator namens malleable 2.5D-Faltung vor, der das Empfindlichkeitsfeld entlang der Tiefenachse lernen kann. Eine malleable 2.5D-Faltung verfügt über ein oder mehrere 2D-Faltungskerne. Unsere Methode weist jedem Pixel jeweils einen der Kerne oder keinen davon basierend auf den relativen Tiefenunterschieden zu, wobei der Zuweisungsprozess in einer differenzierbaren Form formuliert ist, sodass er mittels Gradientenabstieg gelernt werden kann. Der vorgeschlagene Operator arbeitet auf herkömmlichen 2D-Funktionsebenen und kann nahtlos in bereits vortrainierte CNNs integriert werden. Wir führen umfangreiche Experimente auf zwei anspruchsvollen RGB-D-Semantiksegmentierungsdatensätzen, NYUDv2 und Cityscapes, durch, um die Wirksamkeit und Generalisierungsfähigkeit unserer Methode zu validieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Malleable 2.5D-Faltung: Lernen von Empfindlichkeitsfeldern entlang der Tiefenachse für die RGB-D-Szenenanalyse | Paper | HyperAI