Squeeze-and-Excitation Netze

Der zentrale Baustein von Faltungsneuronalen Netzen (CNNs) ist der Faltungsoperator, der es Netzwerken ermöglicht, informative Merkmale zu konstruieren, indem er räumliche und kanalbezogene Informationen innerhalb lokaler Rezeptorfelder in jeder Schicht verbindet. Ein breites Spektrum vorheriger Forschungen hat die räumliche Komponente dieser Beziehung untersucht, wobei das Ziel war, die repräsentative Leistungsfähigkeit eines CNN durch die Verbesserung der Qualität der räumlichen Kodierungen über seine Merkmalshierarchie zu stärken. In dieser Arbeit konzentrieren wir uns jedoch auf die Beziehung zwischen den Kanälen und schlagen eine neuartige architektonische Einheit vor, die wir als "Squeeze-and-Excitation" (SE)-Block bezeichnen. Dieser Block modelliert explizit die Abhängigkeiten zwischen den Kanälen und passt die kanalbezogenen Merkmalsantworten an. Wir zeigen, dass diese Blöcke zusammengefügt werden können, um SE-Netzwerk-Architekturen zu bilden, die sich äußerst effektiv auf verschiedene Datensätze übertragen lassen. Darüber hinaus demonstrieren wir, dass SE-Blöcke bei geringfügig erhöhtem Rechenaufwand erhebliche Leistungsverbesserungen für bestehende state-of-the-art-CNNs mit sich bringen. Squeeze-and-Excitation Netzwerke bildeten die Grundlage unserer ILSVRC 2017 Klassifizierungseinreichung, die den ersten Platz belegte und den Top-5-Fehler auf 2,251 % reduzierte – was einer relativen Verbesserung von etwa 25 % gegenüber dem Gewinner des Jahres 2016 entspricht. Modelle und Code sind unter https://github.com/hujie-frank/SENet verfügbar.