HyperAIHyperAI

Command Palette

Search for a command to run...

Böden sind flach: Semantische Verwendung für die Echtzeit-Vorhersage von Oberflächennormalen

Steven Hickson Karthik Raveendran Alireza Fathi Kevin Murphy Irfan Essa

Zusammenfassung

Wir schlagen vier Erkenntnisse vor, die dazu beitragen, die Leistung von tiefen Lernmodellen erheblich zu verbessern, die Oberflächennormalen und semantische Labels aus einem einzelnen RGB-Bild vorhersagen. Diese Erkenntnisse sind: (1) Entstörung der "Ground Truth" Oberflächennormalen im Trainingsdatensatz, um Konsistenz mit den semantischen Labels sicherzustellen; (2) gleichzeitiges Training auf einer Mischung aus realen und synthetischen Daten anstelle eines Vortrainings auf synthetischen Daten und anschließenden Feinabstimmungen auf realen Daten; (3) gemeinsame Vorhersage von Normalen und Semantik mithilfe eines geteilten Modells, wobei jedoch nur Fehler auf Pixeln zurückpropagiert werden, die gültige Trainingslabels haben; (4) Verkleinerung des Modells und Verwendung von Graustufen statt Farbeingaben. Trotz der Einfachheit dieser Schritte zeigen wir konsistent verbesserte Ergebnisse in mehreren Datensätzen, wobei das Modell eine Geschwindigkeit von 12 fps auf einem Standard-Smartphone erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp