Command Palette
Search for a command to run...
Tiefe CNNs treffen globale Kovarianzpooling: Bessere Darstellung und Verallgemeinerung
Tiefe CNNs treffen globale Kovarianzpooling: Bessere Darstellung und Verallgemeinerung
Qilong Wang, Member, IEEE, Jiangtao Xie, Wangmeng Zuo, Senior Member, IEEE, Lei Zhang, Fellow, IEEE, and Peihua Li, Member, IEEE
Zusammenfassung
Im Vergleich zum globalen Durchschnittspooling in bestehenden tiefen Faltungsneuronalen Netzen (CNNs) kann globales Kovarianzpooling reichere Statistiken tiefer Merkmale erfassen und das Potenzial hat, die Repräsentations- und Generalisierungsfähigkeiten tiefer CNNs zu verbessern. Die Integration von globaler Kovarianzpooling in tiefere CNNs bringt jedoch zwei Herausforderungen mit sich: (1) robuste Kovarianzschätzung bei hochdimensionalen Merkmalen und kleiner Stichprobengröße; (2) angemessene Nutzung der Geometrie von Kovarianzen. Um diesen Herausforderungen zu begegnen, schlagen wir ein globales Matrix-Power-Normalisiertes-Kovarianz (MPN-COV) Pooling vor. Unser MPN-COV entspricht einem robusten Kovarianzschätzer, der sehr gut für Szenarien mit hoher Dimensionalität und kleiner Stichprobengröße geeignet ist. Es kann auch als Power-Euklidische Metrik zwischen Kovarianzen angesehen werden, wodurch ihre Geometrie effektiv genutzt wird. Darüber hinaus wird ein globales Gauß-Embedding-Netzwerk vorgeschlagen, um erste Ordnungsstatistiken in das MPN-COV zu integrieren. Für eine schnelle Trainierung von MPN-COV-Netzwerken implementieren wir eine iterative Matrizenquadratwurzelnormalisierung, die die für MPN-COV inhärente GPU-unfreundliche Eigenwertzerlegung vermeidet. Zudem werden progressive 1x1-Faltungen und Gruppenfaltung eingeführt, um Kovarianzdarsellungen zu komprimieren. Die vorgeschlagenen Methoden sind hochgradig modular und können leicht in bestehende tiefere CNNs integriert werden. Ausführliche Experimente wurden auf großen Objektklassifikations-, Szenerkennungs-, feinkörnigen visuellen Erkennungs- und Texturklassifikationsdatensätzen durchgeführt, die zeigen, dass unsere Methoden den Konkurrenten überlegen sind und den aktuellen Stand der Technik erreichen.