Match Them Up: Visuell erklärbare Few-shot-Bildklassifikation

Few-shot Learning (FSL)-Ansätze basieren in der Regel auf der Annahme, dass vorab trainiertes Wissen aus Basis-(gesehenen) Kategorien gewonnen werden kann und gut auf neue (nicht gesehene) Kategorien übertragen werden kann. Doch für den letzteren Teil besteht keine Garantie. Dieses Problem führt dazu, dass der Inferenzprozess bei den meisten FSL-Methoden unbekannt bleibt, was deren Anwendung in risikosensiblen Bereichen erschwert. In diesem Paper stellen wir einen neuen Ansatz zur Durchführung von FSL für die Bildklassifikation vor, der visuelle Repräsentationen aus dem Backbone-Modell sowie Gewichte verwendet, die von einem neu entstandenen erklärbaren Klassifikator generiert werden. Die gewichteten Repräsentationen enthalten nur eine minimale Anzahl an unterscheidbaren Merkmalen, und die visualisierten Gewichte können als informative Hinweise für den FSL-Prozess dienen. Schließlich vergleicht ein Diskriminator die Repräsentationen jedes Paars von Bildern aus dem Support- und dem Query-Set. Die Paare mit den höchsten Scores bestimmen dann die Klassifikationsresultate. Experimentelle Ergebnisse belegen, dass die vorgeschlagene Methode sowohl eine hohe Genauigkeit als auch eine zufriedenstellende Erklärbarkeit auf drei etablierten Datensätzen erreicht.