Low-Shot Visuelle Erkennung durch Verkleinerung und Halluzination von Merkmalen

Low-Shot-Visuelles Lernen – die Fähigkeit, neue Objektkategorien anhand sehr weniger Beispiele zu erkennen – ist ein Merkmal menschlicher visueller Intelligenz. Bestehende maschinelle Lernverfahren scheitern daran, auf die gleiche Weise zu generalisieren. Um bei diesem grundlegenden Problem Fortschritte zu erzielen, stellen wir eine Low-Shot-Lern-Benchmark für komplexe Bilder vor, die den Herausforderungen nachahmt, denen Erkennungssysteme in der Praxis gegenüberstehen. Wir schlagen außerdem a) Repräsentationsregularisierungstechniken und b) Techniken zur Generierung zusätzlicher Trainingsbeispiele für datenarme Klassen vor. Zusammen verbessern unsere Methoden die Effektivität von Faltungsnetzen im Low-Shot-Lernen und steigern die One-Shot-Akkuranz auf neuen Klassen im anspruchsvollen ImageNet-Datensatz um das 2,3-Fache.