HyperAIHyperAI
vor 11 Tagen

F-CAM: Vollauflösende Klassen-Aktivierungsabbildungen durch geführte parametrische Up-Scaling

Soufiane Belharbi, Aydin Sarraf, Marco Pedersoli, Ismail Ben Ayed, Luke McCaffrey, Eric Granger
F-CAM: Vollauflösende Klassen-Aktivierungsabbildungen durch geführte parametrische Up-Scaling
Abstract

Class Activation Mapping (CAM)-Methoden haben in letzter Zeit erhebliche Aufmerksamkeit für Aufgaben der schwach überwachten Objektlokalisierung (WSOL) erfahren. Sie ermöglichen die Visualisierung und Interpretation von CNNs ohne die Notwendigkeit, auf vollständig annotierten Bild-Datensätzen zu trainieren. CAM-Methoden werden typischerweise in kommerziell verfügbare CNN-Backbones wie ResNet50 integriert. Aufgrund von Konvolution und Pooling-Operationen erzeugen diese Backbones CAMs mit geringer Auflösung, die bis zu einem Reduktionsfaktor von 32 aufweisen, was zu ungenauen Lokalisierungen beiträgt. Zur Wiederherstellung der vollen Bildgröße ist eine Interpolation erforderlich; diese berücksichtigt jedoch nicht die statistischen Eigenschaften von Objekten wie Farbe und Textur, was zu inkonsistenten Aktivierungsgrenzen und damit ungenauen Lokalisierungen führt. Als Alternative stellen wir eine generische Methode für die parametrische Aufskalierung von CAMs vor, die die Erzeugung präziser CAMs in voller Auflösung (F-CAMs) ermöglicht. Insbesondere schlagen wir eine trainierbare Decodierarchitektur vor, die an beliebige CNN-Klassifizierer angebunden werden kann, um hochgenaue CAM-Lokalisierungen zu erzeugen. Gegeben eine ursprüngliche CAM mit geringer Auflösung werden Vordergrund- und Hintergrundpixel zufällig ausgewählt, um den Decoder feinabzustimmen. Zudem werden zusätzliche Priorinformationen wie Bildstatistiken und Größe einschränkend berücksichtigt, um die Objektränder zu erweitern und zu verfeinern. Umfangreiche Experimente an drei CNN-Backbones und sechs WSOL-Baselines auf den Datensätzen CUB-200-2011 und OpenImages zeigen, dass unsere F-CAM-Methode eine signifikante Verbesserung der Lokalisierungsgenauigkeit erzielt. Die Leistungsfähigkeit von F-CAM ist mit jener modernster WSOL-Methoden vergleichbar, erfordert jedoch während der Inferenz deutlich weniger Rechenleistung.

F-CAM: Vollauflösende Klassen-Aktivierungsabbildungen durch geführte parametrische Up-Scaling | Neueste Forschungsarbeiten | HyperAI