SalNAS: Effiziente Salienzvorhersage durch neuronale Architektursuche mit Selbstwissensdistillierung

Neuere Fortschritte in tiefen Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs) haben die Leistungsfähigkeit der Salienzvorhersage erheblich verbessert. Dennoch ist die manuelle Konfiguration der neuronalen Netzarchitekturen aufwendig und fehleranfällig, da sie Fachwissen erfordert. Um dieses Problem zu lösen, schlagen wir einen neuen Rahmen für die Neuronale Architektursuche (Neural Architecture Search, NAS) zur Salienzvorhersage vor, der zwei wesentliche Beiträge leistet. Erstens wird ein Supernetzwerk für die Salienzvorhersage erstellt, das alle Kandidatenarchitekturen enthält und durch den Einsatz einer dynamischen Faltung im Encoder-Decoder des Supernetzes verbessert wird; dieses Netzwerk wird als SalNAS bezeichnet. Zweitens kann SalNAS trotz seiner hohen Effizienz (20,98 Millionen Parameter) an Generalisierung leiden. Um dies zu beheben, schlagen wir einen Ansatz des Selbst-Wissensdistillierens (Self-Knowledge Distillation, Self-KD) vor, bei dem das Schüler-SalNAS mit dem gewichteten Durchschnittswert zwischen der Grundwahrheit und der Vorhersage des Lehrermodells trainiert wird. Das Lehrermodell teilt zwar die gleiche Architektur, enthält jedoch die besten Gewichte, die durch Kreuzvalidierung ausgewählt wurden. Self-KD kann ohne Berechnung des Gradienten im Lehrermodell gut generalisieren und ermöglicht so ein effizientes Trainingsystem. Durch den Einsatz von Self-KD übertrifft SalNAS in den meisten Bewertungskriterien auf sieben Benchmark-Datensätzen andere state-of-the-art Modelle zur Salienzvorhersage und bleibt dabei ein leichtgewichtiges Modell. Der Code wird unter https://github.com/chakkritte/SalNAS verfügbar sein.