Delta-Encoder: eine effektive Stichproben-Synthese-Methode für Few-Shot-Objekterkennung

Das Lernen, neue Kategorien auf der Grundlage von nur einem oder wenigen Beispielen zu klassifizieren, ist eine langjährige Herausforderung in der modernen Computer Vision. In dieser Arbeit schlagen wir eine einfache, aber effektive Methode für das Few-Shot- (und One-Shot-) Objekterkennung vor. Unser Ansatz basiert auf einem modifizierten Auto-Encoder, dem sogenannten Delta-Encoder, der lernt, neue Beispiele für eine bisher unbekannte Kategorie durch das Betrachten von wenigen Beispielen aus dieser Kategorie zu synthetisieren. Die synthetisierten Beispiele werden dann verwendet, um einen Klassifikator zu trainieren. Der vorgeschlagene Ansatz lernt sowohl übertragbare intraklassische Deformationen oder "Deltas" zwischen Trainingsbeispielen gleicher Klasse zu extrahieren als auch diese Deltas auf die wenigen zur Verfügung stehenden Beispiele einer neuen Klasse (die während des Trainings nicht gesehen wurde) anzuwenden, um effizient Beispiele aus dieser neuen Klasse zu synthetisieren. Die vorgestellte Methode verbessert den Stand der Technik bei One-Shot-Objekterkennung und erzielt vergleichsweise gute Ergebnisse im Few-Shot-Fall. Bei Annahme des Artikels wird der Code zur Verfügung gestellt.