Transfer-Learning-basierte Few-Shot-Klassifikation mittels optimaler Transportabbildung aus dem vorgearbeiteten Latentraum eines Backbone-Neuralen Netzwerks

Der MetaDL Challenge 2020 konzentrierte sich auf Aufgaben der Bildklassifikation in Few-Shot-Szenarien. Dieser Beitrag beschreibt die zweitbeste Einreichung im Wettbewerb. Unser Meta-Lernansatz modifiziert die Verteilung der Klassen im latenzraum, der von einem Backbone-Netzwerk erzeugt wird, für jede Klasse, um eine bessere Anpassung an die Gauss-Verteilung zu erreichen. Nach dieser Operation, die wir als Latent Space Transform-Algorithmus bezeichnen, werden die Klassenzentren iterativ im Sinne des Erwartungswertmaximierungs-Algorithmus (Expectation Maximisation) weiter ausgerichtet, um Informationen aus unbeschrifteten Daten zu nutzen, die oft zusätzlich zu wenigen beschrifteten Instanzen bereitgestellt werden. Für diese Aufgabe setzen wir eine optimale Transportabbildung mittels des Sinkhorn-Algorithmus ein. Unsere Experimente zeigen, dass dieser Ansatz sowohl gegenüber vorherigen Arbeiten als auch gegenüber anderen Varianten des Algorithmus – beispielsweise mit K-Nächsten-Nachbarn-Verfahren oder Gaußschen Mischmodellen – eine bessere Leistung erzielt.