Netzwerk mit mehrskaliger adaptiver Aufgaben-Attention für Few-Shot-Lernen

Das Ziel des Few-Shot-Lernens besteht darin, unbekannte Kategorien mit wenigen gelabelten Beispielen zu klassifizieren. In jüngster Zeit haben Methoden, die auf der Metrik-Lernung basierend auf niedrigstufigen Informationsmerkmalen (low-level information metric-learning) aufbauen, zufriedenstellende Leistungen erzielt, da lokale Repräsentationen (Local Representations, LRs) zwischen gesehenen und unbekannten Klassen konsistenter sind. Allerdings behandeln die meisten dieser Ansätze jede Kategorie im Support-Satz unabhängig voneinander, was nicht ausreicht, um die Beziehungen zwischen Merkmalen – insbesondere in einem bestimmten Task – angemessen zu erfassen. Zudem leidet die auf niedrigstufigen Informationen basierende Metrik-Lernmethode unter der Gegenwart dominanter Objekte unterschiedlicher Skalen in komplexen Hintergründen. Um diese Probleme zu lösen, wird in diesem Artikel ein neuartiges Netzwerk namens Multi-scale Adaptive Task Attention Network (MATANet) für das Few-Shot-Lernen vorgestellt. Konkret verwenden wir zunächst einen mehrskaligen Merkmalsgenerator, um mehrere Merkmale auf unterschiedlichen Skalen zu erzeugen. Anschließend wird ein adaptiver Task-Attention-Modul vorgeschlagen, um die bedeutendsten LRs innerhalb des gesamten Tasks auszuwählen. Anschließend werden ein Similarity-to-Class-Modul und eine Fusionschicht eingesetzt, um eine gemeinsame mehrskalige Ähnlichkeit zwischen dem Abfragebild und dem Support-Satz zu berechnen. Umfangreiche Experimente auf etablierten Benchmarks zeigen eindeutig die Wirksamkeit des vorgeschlagenen MATANet im Vergleich zu aktuellen State-of-the-Art-Methoden.