HyperAIHyperAI
il y a 17 jours

Apprentissage de proxys sémantiques à partir de prompts visuels pour un fine-tuning à faible coût en paramètres dans l'apprentissage profond de métriques

Li Ren, Chen Chen, Liqiang Wang, Kien Hua
Apprentissage de proxys sémantiques à partir de prompts visuels pour un fine-tuning à faible coût en paramètres dans l'apprentissage profond de métriques
Résumé

L'apprentissage métrique profond (Deep Metric Learning, DML) a longtemps retenu l'attention de la communauté du machine learning en tant qu'objectif central. Les solutions existantes se concentrent sur le fine-tuning des modèles pré-entraînés sur des jeux de données d'images classiques. En raison du succès récent des modèles pré-entraînés à partir de grands jeux de données, il devient difficile d'adapter ces modèles aux tâches DML dans un domaine local de données tout en préservant les connaissances acquises précédemment. Dans cet article, nous explorons des méthodes efficaces en termes de paramètres pour le fine-tuning des modèles pré-entraînés dans le cadre des tâches DML. Plus précisément, nous proposons un cadre novateur et efficace basé sur l'apprentissage de prompts visuels (Visual Prompts, VPT) dans les Transformers visuels pré-entraînés (Vision Transformers, ViT). En s'appuyant sur le paradigme classique du DML basé sur les proxies, nous enrichissons les proxies en intégrant des informations sémantiques provenant à la fois de l'image d'entrée et du ViT, en optimisant les prompts visuels par classe. Nous démontrons que nos nouvelles approximations intégrant des informations sémantiques surpassent significativement les capacités représentatives, conduisant ainsi à une amélioration des performances de l'apprentissage métrique. Nous menons des expériences approfondies pour montrer que notre cadre proposé est à la fois efficace et performant, en évaluant sur des benchmarks populaires de DML. En particulier, nous démontrons que notre méthode de fine-tuning atteint des performances comparables, voire supérieures, à celles des méthodes les plus récentes de fine-tuning complet (full fine-tuning) dans le domaine DML, tout en ajustant uniquement une faible proportion des paramètres totaux.

Apprentissage de proxys sémantiques à partir de prompts visuels pour un fine-tuning à faible coût en paramètres dans l'apprentissage profond de métriques | Articles de recherche récents | HyperAI