vor 18 Tagen

MIC: Ausgraben von Interklassenmerkmalen zur Verbesserung der metrischen Lernverfahren

Karsten Roth, Biagio Brattoli, Björn Ommer

Abstract

Metrisches Lernen zielt darauf ab, Bilder von Objekten so in einen Embeddingraum einzubetten, dass die durch Klassen definierten Beziehungen durch den Raum erfasst werden. Allerdings hängt die Variabilität in Bildern nicht allein von unterschiedlichen dargestellten Objektklassen ab, sondern auch von weiteren latenten Eigenschaften wie Blickwinkel oder Beleuchtung. Neben diesen strukturierten Eigenschaften stört zufälliger Rausch zusätzlich die interessierenden visuellen Beziehungen. Der übliche Ansatz im metrischen Lernen besteht darin, eine Darstellung zu erzwingen, die invariant gegenüber allen Faktoren ist, mit Ausnahme derjenigen, die von Interesse sind. Im Gegensatz dazu schlagen wir vor, explizit die latenten Merkmale zu lernen, die sowohl innerhalb als auch zwischen Objektklassen gemeinsam sind. Auf diese Weise können wir die strukturierte visuelle Variabilität direkt erklären, anstatt sie als unbekanntes zufälliges Rauschen zu behandeln. Wir stellen eine neuartige Ersatzaufgabe vor, um visuelle Merkmale, die über Klassen hinweg gemeinsam sind, mit einem separaten Encoder zu lernen. Dieser Encoder wird gemeinsam mit dem Encoder für Klasseninformationen trainiert, indem deren gegenseitige Information minimiert wird. Auf fünf etablierten Benchmarks für Bildretrieval erreicht der Ansatz signifikante Verbesserungen gegenüber dem Stand der Technik.