HyperAIHyperAI

Command Palette

Search for a command to run...

Appariement d'Images Multimodales Basé sur l'Attention

Aviad Moreshet Yosi Keller

Résumé

Nous proposons une approche basée sur l'attention pour le couplage de patches d'images multimodaux en utilisant un encodeur Transformer qui porte attention aux cartes de caractéristiques d'un CNN Siamese multi-échelle. Notre encodeur est capable d'agréger efficacement des plongements d'images multi-échelle tout en mettant l'accent sur les indices visuels invariants par rapport à la tâche. Nous introduisons également une architecture résiduelle avec attention, utilisant une connexion résiduelle contournant l'encodeur. Ce signal d'apprentissage supplémentaire facilite l'entraînement de bout en bout à partir de zéro. Nos expériences montrent que notre approche atteint une précision record dans les états de l'art, tant pour les benchmarks multimodaux que mono-modaux, illustrant ainsi sa polyvalence. À notre connaissance, il s'agit de la première mise en œuvre réussie de l'architecture d'encodeur Transformer pour la tâche de couplage de patches d'images multimodaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp