RegNet: Selbstreguliertes Netzwerk für die Bildklassifikation

Die ResNet und ihre Varianten haben erhebliche Erfolge bei verschiedenen Aufgaben im Bereich des maschinellen Sehens erzielt. Trotz ihres Erfolgs bei der Gewährleistung eines stabilen Gradientenflusses durch die Bausteine beschränkt die einfache Shortcut-Verbindung die Fähigkeit, neue potenziell ergänzende Merkmale erneut zu erkunden, aufgrund der additiven Funktion. Um dieses Problem anzugehen, schlagen wir in diesem Artikel vor, einen Regulator-Modul als Speichermechanismus einzuführen, um ergänzende Merkmale zu extrahieren, die anschließend an die ResNet-Struktur weitergeleitet werden. Insbesondere besteht der Regulator-Modul aus faltenden RNNs (z. B. Faltungs-LSTM oder Faltungs-GRU), die sich als besonders gut zur Extraktion von räumlich-zeitlichen Informationen erwiesen haben. Wir bezeichnen die neu entwickelten regulierten Netzwerke als RegNet. Der Regulator-Modul lässt sich leicht implementieren und an beliebige ResNet-Architekturen anfügen. Zudem wenden wir den Regulator-Modul zur Verbesserung des Squeeze-and-Excitation ResNet an, um die Verallgemeinerungsfähigkeit unseres Ansatzes zu demonstrieren. Experimentelle Ergebnisse auf drei Datensätzen für Bildklassifikation belegen die vielversprechende Leistung der vorgeschlagenen Architektur im Vergleich zu der Standard-ResNet, der SE-ResNet sowie anderen state-of-the-art-Architekturen.