HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration du regroupement d'images par atténuation des artefacts lors de l'inférence grâce à l'ingénierie de l'attention

Kazumoto Nakamura Yuji Nozawa Yu-Chieh Lin Kengo Nakata Youyang Ng

Résumé

L'objectif de cet article est d'améliorer les performances des modèles de Vision Transformer (ViT) pré-entraînés, en particulier DINOv2, dans la tâche de clustering d'images sans nécessiter une ré-entraîne ou un ajustement fin. Avec l'augmentation de la taille du modèle, une anomalie d'artefacts à haute norme apparaît dans les patches de l'attention multi-têtes. Nous observons que cette anomalie entraîne une diminution de la précision du clustering d'images en zero-shot. Ces artefacts sont caractérisés par des valeurs excessivement grandes dans la carte d'attention par rapport aux autres jetons de patch. Pour remédier à ces artefacts, nous proposons une approche appelée Ingénierie de l'Attention en Temps d'Inférence (ITAE), qui manipule la fonction d'attention lors de l'inférence. Plus précisément, nous identifions les artefacts en examinant l'un des patches Query-Key-Value (QKV) dans l'attention multi-têtes et atténuons leurs valeurs d'attention correspondantes à l'intérieur des modèles pré-entraînés. L'ITAE montre une amélioration de la précision du clustering sur plusieurs jeux de données en exposant des caractéristiques plus expressives dans l'espace latent. Nos résultats mettent en lumière le potentiel de l'ITAE comme solution pratique pour réduire les artefacts dans les modèles ViT pré-entraînés et améliorer les performances du modèle dans les tâches de clustering sans nécessiter une ré-entraîne ou un ajustement fin.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration du regroupement d'images par atténuation des artefacts lors de l'inférence grâce à l'ingénierie de l'attention | Articles | HyperAI