Command Palette
Search for a command to run...
Hohe Leistungsfähigkeit bei der großskaligen Bilderkennung ohne Normalisierung
Hohe Leistungsfähigkeit bei der großskaligen Bilderkennung ohne Normalisierung
Andrew Brock Soham De Samuel L. Smith Karen Simonyan
Zusammenfassung
Batch-Normalisierung ist ein zentraler Bestandteil der meisten Bildklassifizierungsmodelle, weist jedoch zahlreiche unerwünschte Eigenschaften auf, die auf ihre Abhängigkeit von der Batch-Größe und die Wechselwirkungen zwischen den Beispielbildern zurückzuführen sind. Obwohl kürzlich Arbeiten erfolgreich tiefgehende ResNets ohne Normalisierungsschichten trainiert haben, erreichen diese Modelle die Testgenauigkeit der besten batch-normalisierten Netzwerke nicht und sind oft instabil bei großen Lernraten oder starken Datenaugmentierungen. In dieser Arbeit entwickeln wir eine adaptive Gradient-Clipping-Technik, die diese Instabilitäten überwindet, und entwerfen eine signifikant verbesserte Klasse von Normalizer-Free-ResNets. Unsere kleineren Modelle erreichen die Testgenauigkeit eines EfficientNet-B7 auf ImageNet, sind jedoch bis zu 8,7-mal schneller zu trainieren, während unsere größten Modelle eine neue State-of-the-Art-Top-1-Genauigkeit von 86,5 % erzielen. Zudem zeigen Normalizer-Free-Modelle bei der Feinabstimmung auf ImageNet nach einer großskaligen Vortrainierung auf einem Datensatz mit 300 Millionen beschrifteten Bildern deutlich bessere Leistung als ihre batch-normalisierten Pendants; unsere besten Modelle erreichen dabei eine Genauigkeit von 89,2 %. Der Quellcode ist unter https://github.com/deepmind/deepmind-research/tree/master/nfnets verfügbar.