vor 2 Monaten

Spärliche räumliche Transformer für Few-Shot-Lernen

Haoxing Chen; Huaxiong Li; Yaohui Li; Chunlin Chen

Abstract

Das Lernen aus begrenzten Daten ist eine Herausforderung, da die Datenknappheit zu einer schlechten Generalisierung des trainierten Modells führt. Eine klassische globale Pooling-Darstellung wird wahrscheinlich nützliche lokale Informationen verlieren. Viele Few-Shot-Lernmethoden haben diese Herausforderung kürzlich mit tiefen Deskriptoren und dem Lernen einer Pixel-Level-Metrik angegangen. Allerdings kann das Verwenden von tiefen Deskriptoren als Merkmalsdarstellungen den Kontext der Bilder verlieren. Darüber hinainaus adressieren die meisten dieser Methoden jede Klasse im Support-Set unabhängig voneinander, was es nicht ermöglicht, diskriminierende Informationen und taskspezifische Einbettungen ausreichend zu nutzen. In diesem Artikel schlagen wir eine neuartige transformerbasierte neuronale Netzwerkarchitektur vor, die Sparse Spatial Transformers (SSFormers) genannt wird, welche taskspezifische Merkmale findet und taskspezifisch irrelevante Merkmale unterdrückt. Insbesondere teilen wir zunächst jedes Eingangsbild in mehrere Bildsegmente unterschiedlicher Größen auf, um dichte lokale Merkmale zu erhalten. Diese Merkmale behalten den Kontext bei, während sie lokale Informationen ausdrücken. Anschließend wird eine Schicht von dünn besetzten räumlichen Transformatoren vorgeschlagen, um die räumliche Korrespondenz zwischen dem Abfragebild und dem gesamten Support-Set zu finden, um taskspezifisch relevante Bildsegmente auszuwählen und taskspezifisch irrelevante Bildsegmente zu unterdrücken. Schließlich schlagen wir vor, ein Modul zur Bildsegment-Matching zu verwenden, um den Abstand zwischen dichten lokalen Darstellungen zu berechnen und so die Kategorie des Abfragebilds im Support-Set zu bestimmen. Ausführliche Experimente an bekannten Few-Shot-Lernbenchmarks zeigen die Überlegenheit unserer Methode gegenüber den besten bisherigen Methoden. Unser Quellcode ist unter \url{https://github.com/chenhaoxing/ssformers} verfügbar.