HyperAIHyperAI
il y a 2 mois

Appariement d'Images Multimodales Basé sur l'Attention

Moreshet, Aviad ; Keller, Yosi
Appariement d'Images Multimodales Basé sur l'Attention
Résumé

Nous proposons une approche basée sur l'attention pour le couplage de patches d'images multimodaux en utilisant un encodeur Transformer qui porte attention aux cartes de caractéristiques d'un CNN Siamese multi-échelle. Notre encodeur est capable d'agréger efficacement des plongements d'images multi-échelle tout en mettant l'accent sur les indices visuels invariants par rapport à la tâche. Nous introduisons également une architecture résiduelle avec attention, utilisant une connexion résiduelle contournant l'encodeur. Ce signal d'apprentissage supplémentaire facilite l'entraînement de bout en bout à partir de zéro. Nos expériences montrent que notre approche atteint une précision record dans les états de l'art, tant pour les benchmarks multimodaux que mono-modaux, illustrant ainsi sa polyvalence. À notre connaissance, il s'agit de la première mise en œuvre réussie de l'architecture d'encodeur Transformer pour la tâche de couplage de patches d'images multimodaux.

Appariement d'Images Multimodales Basé sur l'Attention | Articles de recherche récents | HyperAI