HyperAIHyperAI
vor 11 Tagen

Nochmals zur Betrachtung von ResNets: Verbesserte Trainings- und Skalierungsstrategien

Irwan Bello, William Fedus, Xianzhi Du, Ekin D. Cubuk, Aravind Srinivas, Tsung-Yi Lin, Jonathon Shlens, Barret Zoph
Nochmals zur Betrachtung von ResNets: Verbesserte Trainings- und Skalierungsstrategien
Abstract

Neue Architekturen im Bereich des Computersehens dominieren derzeit die Aufmerksamkeit, doch der Einfluss der Modellarchitektur wird oft mit gleichzeitigen Veränderungen in der Trainingsmethodik und Skalierungsstrategien vermischt. In unserer Arbeit kehren wir zu der klassischen ResNet-Architektur (He et al., 2015) zurück und untersuchen diese drei Aspekte systematisch, um sie voneinander zu trennen. Überraschenderweise stellen wir fest, dass Trainingsmethodik und Skalierungsstrategien möglicherweise entscheidender sind als architektonische Änderungen – zudem zeigen die resultierenden ResNets Leistungen, die jüngsten State-of-the-Art-Modellen ebenbürtig sind. Wir zeigen, dass die optimalen Skalierungsstrategien von der jeweiligen Trainingsregime abhängen, und stellen zwei neue Skalierungsstrategien vor: (1) Erhöhung der Modelltiefe in Regimen, in denen Überanpassung auftreten kann (sonst ist Breiten-Skalierung vorzuziehen); (2) langsamerer Anstieg der Bildauflösung im Vergleich zu früheren Empfehlungen (Tan & Le, 2019). Unter Verwendung verbesserter Trainings- und Skalierungsstrategien entwerfen wir eine Familie von ResNet-Architekturen, die ResNet-RS genannt werden. Diese sind auf TPUs bis zu 2,7-mal schneller als EfficientNets, während sie vergleichbare Genauigkeiten auf ImageNet erreichen. In einer großskaligen semi-supervised-Lernumgebung erreicht ResNet-RS eine Top-1-Genauigkeit von 86,2 % auf ImageNet und ist dabei 4,7-mal schneller als EfficientNet NoisyStudent. Die verbesserten Trainingsmethoden steigern zudem die Transferleistung auf einer Reihe von nachgelagerten Aufgaben (erreichen Leistungen, die den neuesten selbstüberwachten Algorithmen nahekommen) und lassen sich auf die Video-Klassifikation im Kinetics-400-Datensatz übertragen. Wir empfehlen Forschern, diese einfachen, überarbeiteten ResNets als Baseline für zukünftige Arbeiten zu verwenden.

Nochmals zur Betrachtung von ResNets: Verbesserte Trainings- und Skalierungsstrategien | Neueste Forschungsarbeiten | HyperAI