NetTailor: Anpassung der Architektur, nicht nur der Gewichte

Reale Anwendungen der Objekterkennung erfordern häufig die Lösung mehrerer Aufgaben auf einer einzigen Plattform. Im Rahmen des Standardparadigmas der Netzwerkanpassung wird für jede Aufgabe ein vollständig neues CNN gelernt, und die endgültige Netzwerkgröße ist unabhängig von der Aufgabenkomplexität. Dies ist verschwenderisch, da einfache Aufgaben kleinere Netzwerke als komplexere Aufgaben benötigen, und es begrenzt die Anzahl der gleichzeitigen lösbarer Aufgaben. Um diese Probleme zu lösen, schlagen wir eine Transfer-Lernprozedur vor, die als NetTailor bezeichnet wird, bei der Schichten eines vortrainierten CNN als universelle Blöcke verwendet werden können, die mit kleinen aufgabenbezogenen Schichten kombiniert werden, um neue Netzwerke zu generieren. Neben der Minimierung des Klassifizierungsfehlers wird das neue Netzwerk trainiert, um die internen Aktivierungen eines starken unbeschränkten CNN nachzuahmen und seine Komplexität durch 1) einen Soft-Attention-Mechanismus über Blöcke und 2) Komplexitätsregularisierungsbedingungen zu minimieren. Auf diese Weise kann NetTailor nicht nur die Gewichte, sondern auch die Netzwerkarchitektur an die Zielaufgabe anpassen. Experimente zeigen, dass Netzwerke, die für einfache Aufgaben wie Zeichenerkennung oder Verkehrsschilderkennung angepasst wurden, erheblich kleiner sind als solche, die für anspruchsvollere Aufgaben wie feingranulare Erkennung angepasst wurden. Wichtiger noch ist, dass aufgrund der modularen Natur des Verfahrens diese Reduktion der Netzwerkkomplexität ohne Kompromisse bei der Parameterfreigabe zwischen den Aufgaben oder bei der Klassifizierungsgenauigkeit erreicht wird.