Kontextuelle Squeeze-and-Excitation für eine effiziente Few-Shot-Bildklassifikation

In den letzten Jahren hat sich eine zunehmende Zahl an anwenderzentrierten Anwendungen entwickelt, die eine effektive Wissensübertragung zwischen Aufgaben im Low-Data-Regime erfordern. Ein Beispiel hierfür ist die Personalisierung, bei der ein vortrainiertes System durch Lernen auf kleinen Mengen annotierter Daten eines spezifischen Benutzers angepasst wird. Dieser Ansatz erfordert hohe Genauigkeit bei geringem Rechenaufwand, weshalb die Pareto-Grenze zwischen Genauigkeit und Anpassungskosten eine entscheidende Rolle spielt. In diesem Paper erweitern wir diese Pareto-Grenze im Few-Shot-Bildklassifikationssetting durch einen zentralen Beitrag: einen neuen adaptiven Block namens Contextual Squeeze-and-Excitation (CaSE), der ein vortrainiertes neuronales Netzwerk auf eine neue Aufgabe mit nur einem einzigen Vorwärtsdurchlauf der Benutzerdaten (dem Kontext) signifikant verbessert. Wir verwenden meta-gelernte CaSE-Blöcke, um den Hauptteil eines Netzwerks bedingt anzupassen, und einen Feinabstimmungsprozess, um einen linearen Kopf anzupassen, wodurch die Methode UpperCaSE definiert wird. UpperCaSE erreicht eine neue state-of-the-art-Genauigkeit im Vergleich zu Meta-Lernern auf den 26 Datensätzen von VTAB+MD sowie auf einer anspruchsvollen realen Personalisierungsbenchmark (ORBIT), wobei die Lücke zu führenden Feinabstimmungsmethoden geschlossen wird – und das mit einer um Größenordnungen geringeren Anpassungskosten.