HyperAIHyperAI
vor 17 Tagen

Lernen semantischer Proxy aus visuellen Prompt für parameter-effizientes Fine-Tuning in der tiefen Metrik-Lernung

Li Ren, Chen Chen, Liqiang Wang, Kien Hua
Lernen semantischer Proxy aus visuellen Prompt für parameter-effizientes Fine-Tuning in der tiefen Metrik-Lernung
Abstract

Deep Metric Learning (DML) hat die Aufmerksamkeit der maschinellen Lerncommunity seit langem als zentrales Ziel gefesselt. Bestehende Ansätze konzentrieren sich auf die Feinabstimmung vortrainierter Modelle anhand herkömmlicher Bild-Datensätze. Aufgrund des Erfolgs jüngster vortrainierter Modelle, die auf größeren Datensätzen trainiert wurden, ist es jedoch herausfordernd, das Modell effektiv auf DML-Aufgaben im lokalen Datenumfeld anzupassen, ohne die zuvor erworbenen Kenntnisse zu verlieren. In diesem Artikel untersuchen wir parameter-effiziente Methoden zur Feinabstimmung vortrainierter Modelle für DML-Aufgaben. Insbesondere schlagen wir einen neuartigen und effektiven Rahmen vor, der auf der Lernung von visuellen Prompten (Visual Prompts, VPT) in vortrainierten Vision Transformers (ViT) basiert. Ausgehend vom etablierten proxy-basierten DML-Paradigma erweitern wir die Proxy-Elemente durch die Integration semantischer Informationen aus dem Eingabebild und dem ViT, wobei wir für jede Klasse spezifische visuelle Prompts optimieren. Wir zeigen, dass unsere neuen Approximationen, die semantische Information einbeziehen, die repräsentativen Fähigkeiten übertrifft und somit die Leistung des Metrik-Lernens verbessert. Umfangreiche Experimente belegen, dass unser vorgeschlagener Rahmen wirksam und effizient ist, was anhand gängiger DML-Benchmarks nachgewiesen wird. Insbesondere zeigen wir, dass unsere Feinabstimmungsmethode eine vergleichbare oder sogar überlegene Leistung im Vergleich zu jüngsten state-of-the-art-Methoden mit vollständiger Feinabstimmung erreicht, während lediglich ein kleiner Prozentsatz der Gesamtparameter angepasst wird.