Bildverformungs-Meta-Netze für One-Shot-Lernen

Menschen können neue visuelle Konzepte robust lernen, selbst wenn Bilder verschiedene Verformungen durchlaufen und bestimmte Informationen verloren gehen. Das Nachahmen dieses Verhaltens und die Synthese verformter Instanzen neuer Konzepte kann helfen, dass visuelle Erkennungssysteme bessere One-Shot-Lernleistungen erzielen, d.h., Konzepte aus einem oder wenigen Beispielen zu lernen. Unser zentrales Erkenntnis ist, dass, obwohl die verformten Bilder möglicherweise nicht visuell realistisch sind, sie immer noch kritische semantische Informationen beibehalten und erheblich zur Formulierung von Klassifikator-Entscheidungsgrenzen beitragen. Inspiriert durch den jüngsten Fortschritt im Bereich des Meta-Lernens kombinieren wir einen Meta-Lerner mit einem Bildverformungsunternetzwerk, das zusätzliche Trainingsbeispiele erzeugt, und optimieren beide Modelle in einer end-to-end Weise. Das Bildverformungsunternetzwerk lernt, Bilder durch die Fusion eines Paares von Bildern zu verformen – ein Prüfbild, das den visuellen Inhalt beibehält, und ein Galeriebild, das die Verformungen vielfältig gestaltet. Wir präsentieren Ergebnisse auf weit verbreiteten One-Shot-Lern-Benchmarks (den Datensätzen miniImageNet und ImageNet 1K Challenge), die deutlich über den aktuellen Stand der Technik hinausgehen. Der Quellcode ist unter https://github.com/tankche1/IDeMe-Net verfügbar.