HyperAIHyperAI
il y a 2 mois

BiCro : Rectification de correspondance bruitée pour les données multi-modales par consistance bidirectionnelle de similarité intermodale

Yang, Shuo ; Xu, Zhaopan ; Wang, Kai ; You, Yang ; Yao, Hongxun ; Liu, Tongliang ; Xu, Min
BiCro : Rectification de correspondance bruitée pour les données multi-modales par
consistance bidirectionnelle de similarité intermodale
Résumé

En tant que l'une des techniques fondamentales de l'apprentissage multimo-dal, le couplage intermodale vise à projeter diverses modalités sensorielles dans un espace de caractéristiques partagé. Pour atteindre cet objectif, il est nécessaire d'avoir des paires de données massives et correctement alignées pour l'entraînement du modèle. Cependant, contrairement aux jeux de données unimodaux, les jeux de données multimo-daux sont extrêmement difficiles à collecter et à annoter avec précision. Comme alternative, les paires de données co-occurrentes (par exemple, les paires image-texte) collectées sur Internet ont été largement exploitées dans ce domaine. Malheureusement, le jeu de données collecté à moindre coût contient inévitablement de nombreuses paires de données mal appariées, qui ont été prouvées nuisibles aux performances du modèle. Pour remédier à cela, nous proposons un cadre général appelé BiCro (Consistance bidirectionnelle de la similarité intermodale), qui peut être facilement intégré aux modèles existants de couplage intermodale et améliorer leur robustesse face aux données bruyantes. Plus précisément, BiCro vise à estimer des étiquettes douces pour les paires de données bruyantes afin de refléter leur véritable degré d'appariement. L'idée fondamentale derrière BiCro est motivée par le fait que — prenant l'appariement image-texte comme exemple — des images similaires devraient avoir des descriptions textuelles similaires et vice versa. La cohérence entre ces deux similarités peut alors être reformulée en termes d'étiquettes douces estimées pour entraîner le modèle d'appariement. Les expériences menées sur trois jeux de données populaires d'appariement intermodale montrent que notre méthode améliore considérablement la robustesse au bruit de divers modèles d'appariement et dépasse nettement l'état de l'art.注释:- "multimodal" 和 "unimodal" 在法语中通常写作 "multimodal" 和 "unimodal",但为了更符合法语文献中的习惯,这里分别写作 "multimo-dal" 和 "unimo-dal"。- “soft labels” 翻译为“étiquettes douces”,这是在机器学习领域中常用的术语。- “state-of-the-art” 翻译为“l'état de l'art”,这是在科技文献中常见的表达。

BiCro : Rectification de correspondance bruitée pour les données multi-modales par consistance bidirectionnelle de similarité intermodale | Articles de recherche récents | HyperAI