HyperAIHyperAI
vor 17 Tagen

Es braucht zwei, um Tango zu tanzen: Mixup für tiefe metrische Lernverfahren

Shashanka Venkataramanan, Bill Psomas, Ewa Kijak, Laurent Amsaleg, Konstantinos Karantzalos, Yannis Avrithis
Es braucht zwei, um Tango zu tanzen: Mixup für tiefe metrische Lernverfahren
Abstract

Metrisches Lernen beinhaltet die Entwicklung einer diskriminativen Darstellung, bei der Embeddings ähnlicher Klassen angeregt werden, nahe beieinander zu liegen, während Embeddings dissimilarer Klassen voneinander entfernt werden. Moderne state-of-the-art-Methoden konzentrieren sich überwiegend auf komplexe Verlustfunktionen oder Miningsstrategien. Auf der einen Seite berücksichtigen metrische Lernverlustfunktionen jeweils zwei oder mehr Beispiele gleichzeitig. Auf der anderen Seite betrachten moderne Daten-Augmentierungsmethoden für Klassifikation ebenfalls zwei oder mehr Beispiele gleichzeitig. Die Kombination beider Ansätze ist bisher untererforscht.In dieser Arbeit zielen wir darauf ab, diese Lücke zu schließen und die Qualität der Darstellungen durch die Verwendung von Mixup zu verbessern, einem leistungsfähigen Ansatz der Daten-Augmentierung, der zwei oder mehr Beispiele sowie deren entsprechende Zielbezeichnungen gleichzeitig interpoliert. Diese Aufgabe ist herausfordernd, da sich die in metrischem Lernen verwendeten Verlustfunktionen im Gegensatz zur Klassifikation nicht additiv über Beispiele aufteilen lassen, sodass die Idee der Interpolation von Zielbezeichnungen nicht unmittelbar übertragbar ist. Soweit uns bekannt ist, sind wir die Ersten, die das Mischen sowohl von Beispielen als auch von Zielbezeichnungen für das tiefe metrische Lernen untersuchen. Wir entwickeln eine verallgemeinerte Formulierung, die bestehende metrische Lernverlustfunktionen umfasst, und modifizieren sie, um Mixup zu integrieren, wodurch wir Metrix (auch bekannt als Metric Mix) einführen. Zudem stellen wir eine neue Metrik – die sogenannte „Utilisierung“ – vor, um zu zeigen, dass durch das Mischen von Beispielen während des Trainings Bereiche des Embedding-Raums erschlossen werden, die jenseits der Trainingsklassen liegen, was zu einer Verbesserung der Darstellungen führt. Um die Wirkung der verbesserten Darstellungen zu validieren, zeigen wir, dass das Mischen von Eingaben, intermediären Darstellungen oder Embeddings gemeinsam mit den Zielbezeichnungen auf vier Standard-Datenbanken für tiefes metrisches Lernen erheblich besser abschneidet als aktuelle state-of-the-art-Methoden.