HyperAIHyperAI
vor 17 Tagen

Integration von Sprachführung in visionbasierte tiefe Metriklernteechniken

Karsten Roth, Oriol Vinyals, Zeynep Akata
Integration von Sprachführung in visionbasierte tiefe Metriklernteechniken
Abstract

Deep Metric Learning (DML) zielt darauf ab, Metrikräume zu lernen, in denen semantische Ähnlichkeiten durch Abstände im Embedding-Raum kodiert sind. Diese Räume sollten auf Klassen übertragbar sein, die jenseits der während des Trainings gesehenen Klassen liegen. Üblicherweise fordern DML-Methoden Netzwerke auf, kontrastive Ranking-Aufgaben zu lösen, die auf binären Klassenzuordnungen basieren. Solche Ansätze ignorieren jedoch höhere semantische Beziehungen zwischen den eigentlichen Klassen. Dies führt dazu, dass die gelernten Embedding-Räume unvollständigen semantischen Kontext erfassen und die semantischen Beziehungen zwischen Klassen fehlerhaft darstellen, was die Generalisierbarkeit des gelernten Metrikrums beeinträchtigt. Um dieses Problem anzugehen, schlagen wir ein sprachgesteuertes Ziel für die visuelle Ähnlichkeitslernung vor. Durch die Nutzung von Sprach-Embeddings von Experten- und Pseudoklassenbezeichnungen kontextualisieren und re-alignieren wir die visuellen Repräsentationsräume, um eine bessere semantische Konsistenz entsprechend sinnvollen sprachlichen Semantiken zu erreichen. Umfangreiche Experimente und Ablationen liefern starke Motivation für unseren Ansatz und zeigen, dass sprachliche Anleitung erhebliche, modellunabhängige Verbesserungen für DML bietet, wodurch konkurrenzfähige und state-of-the-art Ergebnisse auf allen Benchmarks erzielt werden. Der Quellcode ist unter https://github.com/ExplainableML/LanguageGuidance_for_DML verfügbar.