Mehrschichtiges Metrik-Lernen für Few-shot-Bilderkennung

Few-shot-Lernen zielt darauf ab, ein Modell auf wenigen Beispielen zu trainieren. Die meisten dieser Ansätze lernen ein Modell basierend auf pixelweisen oder globalen Merkmalsrepräsentationen. Allerdings kann die Verwendung globaler Merkmale lokale Informationen verlieren, während die Nutzung pixelweiser Merkmale die kontextuelle Semantik des Bildes vernachlässigen kann. Zudem können solche Ansätze lediglich Beziehungen zwischen den Bildern auf einer einzigen Ebene messen, was nicht umfassend und effektiv ist. Wenn jedoch Abfragen gleichzeitig gut klassifiziert werden können, indem drei unterschiedliche Ähnlichkeitsmetriken auf jeweils unterschiedlichen Ebenen angewendet werden, können die Abfragen innerhalb einer Klasse enger im gleichen Merkmalsraum verteilt sein, was zu diskriminativeren Merkmalskarten führt. Ausgehend von diesem Ansatz stellen wir eine neuartige Methode namens Part-level Embedding Adaptation with Graph (PEAG) vor, um aufgabenbezogene Merkmale zu generieren. Darüber hinaus wird eine Multi-level Metric Learning (MML)-Methode vorgestellt, die nicht nur die pixelweise Ähnlichkeit berechnet, sondern auch die Ähnlichkeit von Teilmerkmalen und globalen Merkmalen berücksichtigt. Umfassende Experimente auf gängigen Few-shot-Bilderkennungsdatasets belegen die Wirksamkeit unserer Methode im Vergleich zu aktuellen State-of-the-art-Verfahren. Unser Code ist unter \url{https://github.com/chenhaoxing/M2L} verfügbar.