HyperAIHyperAI
vor 2 Monaten

Die Inception-Architektur für Computer Vision neu überdenken

Christian Szegedy; Vincent Vanhoucke; Sergey Ioffe; Jonathon Shlens; Zbigniew Wojna
Die Inception-Architektur für Computer Vision neu überdenken
Abstract

Faltungsschichtnetze bilden den Kern der meisten modernsten Lösungen für Computer Vision bei einer Vielzahl von Aufgaben. Seit 2014 sind sehr tiefe Faltungsschichtnetze zunehmend in den Mainstream gelangt und haben erhebliche Verbesserungen in verschiedenen Benchmarks gezeigt. Obwohl eine größere Modellgröße und höhere Rechenkosten in der Regel zu unmittelbaren Qualitätsverbesserungen führen, solange genügend beschriftete Daten für das Training zur Verfügung stehen, bleiben Rechengüte und geringe Parameteranzahlen wichtige Faktoren für verschiedene Anwendungsfälle wie Mobilvision und Big-Data-Szenarien. In diesem Beitrag untersuchen wir Methoden, um Netzwerke aufzuskalieren, wobei das Ziel darin besteht, die hinzugefügten Rechenleistung so effizient wie möglich durch geeignet faktorisierte Faltungen und aggressive Regularisierung zu nutzen. Wir evaluieren unsere Methoden am Validierungsdatensatz des ILSVRC 2012 Klassifikationschallenges und zeigen erhebliche Verbesserungen gegenüber dem aktuellen Stand der Technik: 21,2 % Top-1-Fehler und 5,6 % Top-5-Fehler bei der Auswertung einzelner Frames unter Verwendung eines Netzwerks mit einem Rechenaufwand von 5 Milliarden Multiplikationen-Additionen pro Inferenz und weniger als 25 Millionen Parametern. Mit einem Ensemble aus 4 Modellen und mehrfacher Crop-Auswertung melden wir einen Top-5-Fehler von 3,5 % am Validierungsdatensatz (3,6 % Fehler am Testdatensatz) sowie einen Top-1-Fehler von 17,3 % am Validierungsdatensatz.

Die Inception-Architektur für Computer Vision neu überdenken | Neueste Forschungsarbeiten | HyperAI