HyperAIHyperAI
vor 17 Tagen

Hyperbolische Vision-Transformers: Kombination von Verbesserungen im Metrik-Lernen

Aleksandr Ermolov, Leyla Mirvakhabova, Valentin Khrulkov, Nicu Sebe, Ivan Oseledets
Hyperbolische Vision-Transformers: Kombination von Verbesserungen im Metrik-Lernen
Abstract

Metrisches Lernen zielt darauf ab, ein hochdiskriminatives Modell zu erlernen, das die Embeddings ähnlicher Klassen in der gewählten Metrik zueinander nahe und die von unterschiedlichen Klassen voneinander entfernt hält. Die gängige Vorgehensweise besteht darin, einen Encoder zur Extraktion von Embeddings und eine auf Abständen basierende Verlustfunktion zur Anpassung der Repräsentationen zu nutzen – üblicherweise wird dabei die euklidische Distanz herangezogen. In letzter Zeit hat sich ein wachsender Forschungsinteresse an der Lernung von hyperbolischen Datenembeddings gezeigt, was darauf hindeutet, dass die hyperbolische Geometrie für natürliche Daten vorteilhaft sein kann. Anknüpfend an diese Forschungsrichtung stellen wir ein neues, auf hyperbolischen Geometrien basierendes Modell für metrisches Lernen vor. Im Kern unseres Ansatzes steht ein Vision-Transformer, dessen Ausgabedaten in den hyperbolischen Raum abgebildet werden. Diese Embeddings werden direkt mit einer modifizierten Paarweisen-Cross-Entropy-Verlustfunktion optimiert. Wir evaluieren das vorgeschlagene Modell anhand sechs unterschiedlicher Formulierungen auf vier Datensätzen und erreichen dabei neue SOTA-Leistungen (state-of-the-art). Der Quellcode ist unter https://github.com/htdt/hyp_metric verfügbar.