HyperAIHyperAI

Command Palette

Search for a command to run...

Neubewertung der dilatierten Faltung für die Echtzeit-Semantische Segmentierung

Roland Gao

Zusammenfassung

Die Sichtweite (Field-of-View) ist ein entscheidender Metrik bei der Entwicklung von Modellen für die semantische Segmentierung. Um eine große Sichtweite zu erreichen, wählen herkömmliche Ansätze in der Regel eine schnelle Reduktion der räumlichen Auflösung, typischerweise durch durchschnittliche Pooling-Operationen oder Faltungsschichten mit einem Schrittweite von 2. Wir verfolgen einen alternativen Ansatz, indem wir im gesamten Backbone dilatierte Faltungen mit großen Dilatationsraten einsetzen, wodurch der Backbone seine Sichtweite einfach durch Anpassung der Dilatationsraten steuern kann. Wir zeigen, dass diese Vorgehensweise mit bestehenden Ansätzen wettbewerbsfähig ist. Um die dilatierten Faltungen effektiv nutzen zu können, leiten wir eine einfache obere Schranke für die Dilatationsrate her, um Lücken zwischen den Faltungsparametern zu vermeiden. Darüber hinaus entwickeln wir eine Blockstruktur, inspiriert von SE-ResNeXt, die zwei parallele 3×33\times33×3-Faltungsschichten mit unterschiedlichen Dilatationsraten nutzt, um lokale Details besser zu bewahren. Die manuelle Feinabstimmung der Dilatationsraten für jeden Block kann jedoch schwierig sein. Daher stellen wir eine differenzierbare neuronale Architektursuche (differentiable Neural Architecture Search) vor, die den Gradientenabstieg nutzt, um die Dilatationsraten zu optimieren. Zusätzlich schlagen wir einen leichten Decoder vor, der lokale Informationen besser wiederherstellt als übliche Alternativen. Um die Wirksamkeit unseres Ansatzes zu demonstrieren, erreicht unser Modell RegSeg wettbewerbsfähige Ergebnisse auf den Echtzeit-Datensätzen Cityscapes und CamVid. Unter Verwendung einer T4-GPU mit gemischter Genauigkeit erzielt RegSeg auf dem Cityscapes-Testset eine mIOU von 78,3 bei 37 FPS und auf dem CamVid-Testset eine mIOU von 80,9 bei 112 FPS – jeweils ohne Vortrainings auf ImageNet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Neubewertung der dilatierten Faltung für die Echtzeit-Semantische Segmentierung | Paper | HyperAI