HyperAIHyperAI
vor 19 Tagen

Semantische Segmentierung basierend auf RGB mit selbstüberwachter Tiefen-Vortrainierung

Jean Lahoud, Bernard Ghanem
Semantische Segmentierung basierend auf RGB mit selbstüberwachter Tiefen-Vortrainierung
Abstract

Obwohl bekannte große Datensätze wie ImageNet den Fortschritt in der Bildverstehensforschung maßgeblich vorangetrieben haben, erfordern die meisten dieser Datensätze umfangreiche manuelle Annotationen und sind daher nicht leicht skalierbar. Dies begrenzt die Weiterentwicklung von Bildverstehensmethoden. Der Einfluss solcher großskaliger Datensätze ist in nahezu jedem visuellen Aufgabenbereich und jeder Technik als Vortrainierung zur Initialisierung nachweisbar. In dieser Arbeit präsentieren wir eine leicht skalierbare und selbstüberwachte Methode, die zur Vortrainierung beliebiger semantischer RGB-Segmentierungsmethoden eingesetzt werden kann. Insbesondere nutzt unser Vortrainierungsansatz automatisch generierte Labels, die mittels Tiefensensoren erzeugt werden können. Diese Labels, die wir HN-Labels nennen, repräsentieren unterschiedliche Höhen- und Normalen-Regionen und ermöglichen die Gewinnung lokaler semantischer Informationen, die für die Aufgabe der semantischen RGB-Segmentierung nützlich sind. Wir zeigen, wie unsere vorgeschlagene selbstüberwachte Vortrainierung mit HN-Labels die Vortrainierung auf ImageNet ersetzen kann, wobei lediglich 1/25 der benötigten Bilder erforderlich sind und keinerlei manuelle Beschriftung notwendig ist. Wir trainieren ein semantisches Segmentierungsnetzwerk mit unseren HN-Labels, wodurch die Vortrainierungsphase einer Aufgabe näherkommt, die der eigentlichen Endaufgabe (semantische Segmentierung) deutlich ähnlicher ist als die Vortrainierung auf einer weniger verwandten Aufgabe wie Klassifikation mit ImageNet. Wir evaluieren unsere Methode an zwei Datensätzen (NYUv2 und CamVid) und zeigen, dass die Aufgabenähnlichkeit nicht nur die Beschleunigung des Vortrainierungsprozesses, sondern auch eine bessere endgültige Genauigkeit bei der semantischen Segmentierung im Vergleich zur Vortrainierung auf ImageNet ermöglicht.

Semantische Segmentierung basierend auf RGB mit selbstüberwachter Tiefen-Vortrainierung | Forschungsarbeiten | HyperAI