HyperAIHyperAI
vor 17 Tagen

Sparse Concept Bottleneck Models: Gumbel-Tricks im kontrastiven Lernen

Andrei Semenov, Vladimir Ivanov, Aleksandr Beznosikov, Alexander Gasnikov
Sparse Concept Bottleneck Models: Gumbel-Tricks im kontrastiven Lernen
Abstract

Wir schlagen eine neuartige Architektur und Methode für erklärbare Klassifikation mittels Concept Bottleneck Models (CBMs) vor. Während aktuelle State-of-the-Art-Ansätze für Aufgaben der Bildklassifikation als Black-Box-Modelle fungieren, wächst die Nachfrage nach Modellen, die interpretierbare Ergebnisse liefern. Solche Modelle lernen oft, die Verteilung über Klassenlabels vorherzusagen, indem sie zusätzliche Beschreibungen der Zielinstanzen, sogenannte Konzepte, berücksichtigen. Bestehende Bottleneck-Methoden weisen jedoch mehrere Einschränkungen auf: Ihre Genauigkeit liegt unter der von Standardmodellen, und CBMs erfordern zudem eine zusätzliche Menge an Konzepten, um nutzbar zu sein. Wir präsentieren einen Rahmen, um Concept Bottleneck Models aus vortrainierten multimodalen Encodern sowie neuen, CLIP-ähnlichen Architekturen zu erstellen. Durch die Einführung einer neuen Schichtart, bekannt als Concept Bottleneck Layers, leiten wir drei Trainingsmethoden ab: mit ℓ₁-Verlust, kontrastivem Verlust und einer Verlustfunktion basierend auf der Gumbel-Softmax-Verteilung (Sparse-CBM), während die letzte FC-Schicht weiterhin mit Cross-Entropy trainiert wird. Wir zeigen eine signifikante Steigerung der Genauigkeit durch die Verwendung spärlicher versteckter Schichten in CLIP-basierten Bottleneck-Modellen. Dies bedeutet, dass eine spärliche Darstellung des Aktivierungsvektors der Konzepte in Concept Bottleneck Models sinnvoll ist. Darüber hinaus ermöglicht unser Algorithmus zur Konzeptmatrix-Suche die Verbesserung der CLIP-Vorhersagen auf komplexen Datensätzen ohne zusätzlichen Trainingsschritt oder Feinabstimmung. Der Quellcode ist unter folgender URL verfügbar: https://github.com/Andron00e/SparseCBM.

Sparse Concept Bottleneck Models: Gumbel-Tricks im kontrastiven Lernen | Neueste Forschungsarbeiten | HyperAI