ESPT: Eine selbstüberwachte episodische räumliche Vor-Aufgabe zur Verbesserung des Few-Shot-Lernens

Selbstüberwachte Lernverfahren (SSL) wurden kürzlich in den Few-Shot-Lernrahmen integriert und haben vielversprechende Ergebnisse bei der Verbesserung der Leistungsfähigkeit der Few-Shot-Bildklassifikation gezeigt. Allerdings suchen bestehende SSL-Ansätze, die in FSL eingesetzt werden, typischerweise die Überwachungssignale aus dem globalen Embedding jedes einzelnen Bildes. Daher können diese Methoden während des episodischen Trainings die lokale visuelle Information in den Bildproben sowie die strukturellen Dateninformationen des gesamten Episodenverlaufs nicht erfassen und vollständig nutzen, was jedoch förderlich für FSL wäre. Um dies zu beheben, schlagen wir vor, das Few-Shot-Lernziel durch eine neuartige selbstüberwachte episodische räumliche Vorabaufgabe (Episodic Spatial Pretext Task, ESPT) zu erweitern. Konkret generieren wir für jede Few-Shot-Episode eine entsprechende transformierte Episode, indem wir alle Bilder innerhalb dieser Episode einer zufälligen geometrischen Transformation unterziehen. Auf Basis dieser beiden Episoden definiert sich unsere ESPT-Zielsetzung als Maximierung der Konsistenz der lokalen räumlichen Beziehungen zwischen der ursprünglichen und der transformierten Episode. Mit dieser Definition fördert das ESPT-erweiterte FSL-Ziel die Entwicklung übertragbarer Merkmalsrepräsentationen, die die lokalen räumlichen Merkmale verschiedener Bilder sowie deren interrelationalen strukturellen Informationen innerhalb jeder Eingabepisode erfassen, wodurch das Modell besser auf neue Kategorien mit nur wenigen Beispielen generalisieren kann. Umfangreiche Experimente zeigen, dass unsere ESPT-Methode auf drei etablierten Benchmark-Datensätzen neue State-of-the-Art-Ergebnisse für die Few-Shot-Bildklassifikation erzielt. Der Quellcode wird unter folgender Adresse verfügbar sein: https://github.com/Whut-YiRong/ESPT.