HyperAIHyperAI

Command Palette

Search for a command to run...

Briser l'écart modalité dans le suivi RGBT : distillation de connaissances couplée

Zhang, Xiaoxiao Li, Zhihong Wang, Yuyang Zhang, Shengqiang

Résumé

L'écart modal entre les images RGB et infrarouge thermique (TIR) est un problème crucial mais souvent négligé dans les méthodes de suivi RGBT existantes. Cet écart modal se manifeste principalement par des différences de style d'image. Dans cette étude, nous proposons un nouveau cadre de distillation de connaissances couplées appelé CKD (Coupled Knowledge Distillation), qui vise à identifier les styles communs entre différentes modalités afin de réduire l'écart modal, pour un suivi RGBT haute performance. Plus précisément, nous introduisons deux réseaux d'apprentissage (student networks) et utilisons une perte de distillation de style pour rendre leurs caractéristiques stylistiques aussi cohérentes que possible. En atténuant la différence de style entre ces deux réseaux d'apprentissage, nous pouvons efficacement réduire l'écart modal entre différentes modalités. Cependant, la distillation des caractéristiques stylistiques peut nuire aux représentations du contenu des deux modalités dans les réseaux d'apprentissage. Pour résoudre ce problème, nous utilisons les réseaux originaux RGB et TIR comme enseignants et transférons leurs connaissances sur le contenu respectivement dans les deux réseaux d'apprentissage grâce à un schéma de découplage orthogonal des caractéristiques style-contenu. Nous associons ces deux processus de distillation dans un cadre d'optimisation en ligne pour former de nouvelles représentations de caractéristiques sans écart modal pour les modalités RGB et thermique. De plus, nous intégrons une stratégie de modélisation masquée et une stratégie d'élimination des jetons candidats multimodaux dans CKD afin d'améliorer respectivement la robustesse et l'efficacité du suivi. Des expériences approfondies sur cinq jeux de données standard de suivi RGBT ont validé l'efficacité de notre méthode par rapport aux méthodes les plus avancées actuellement disponibles tout en atteignant la vitesse de suivi la plus rapide à 96,4 FPS. Le code source est disponible sur https://github.com/Multi-Modality-Tracking/CKD.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp