HyperAIHyperAI
vor 2 Monaten

Böden sind flach: Semantische Verwendung für die Echtzeit-Vorhersage von Oberflächennormalen

Steven Hickson; Karthik Raveendran; Alireza Fathi; Kevin Murphy; Irfan Essa
Böden sind flach: Semantische Verwendung für die Echtzeit-Vorhersage von Oberflächennormalen
Abstract

Wir schlagen vier Erkenntnisse vor, die dazu beitragen, die Leistung von tiefen Lernmodellen erheblich zu verbessern, die Oberflächennormalen und semantische Labels aus einem einzelnen RGB-Bild vorhersagen. Diese Erkenntnisse sind: (1) Entstörung der "Ground Truth" Oberflächennormalen im Trainingsdatensatz, um Konsistenz mit den semantischen Labels sicherzustellen; (2) gleichzeitiges Training auf einer Mischung aus realen und synthetischen Daten anstelle eines Vortrainings auf synthetischen Daten und anschließenden Feinabstimmungen auf realen Daten; (3) gemeinsame Vorhersage von Normalen und Semantik mithilfe eines geteilten Modells, wobei jedoch nur Fehler auf Pixeln zurückpropagiert werden, die gültige Trainingslabels haben; (4) Verkleinerung des Modells und Verwendung von Graustufen statt Farbeingaben. Trotz der Einfachheit dieser Schritte zeigen wir konsistent verbesserte Ergebnisse in mehreren Datensätzen, wobei das Modell eine Geschwindigkeit von 12 fps auf einem Standard-Smartphone erreicht.

Böden sind flach: Semantische Verwendung für die Echtzeit-Vorhersage von Oberflächennormalen | Neueste Forschungsarbeiten | HyperAI