HyperAIHyperAI
il y a 7 jours

Rudder : Un jeu de données pour la recherche vidéo et texte multilingue

Jayaprakash A, Abhishek, Rishabh Dabral, Ganesh Ramakrishnan, Preethi Jyothi
Rudder : Un jeu de données pour la recherche vidéo et texte multilingue
Résumé

La recherche vidéo à l’aide de requêtes naturelles exige l’apprentissage de représentations conjointes sémantiquement significatives entre le texte et l’entrée audiovisuelle. En général, ces représentations conjointes sont apprises à l’aide de fonctions de perte contrastive par paires (ou par triplets), qui ne permettent pas d’accorder suffisamment d’attention aux échantillons « difficiles à retrouver » pendant l’entraînement. Ce problème est particulièrement marqué dans les environnements à faible quantité de données, où les jeux de données sont relativement petits (10 % du jeu de données MSR-VTT à grande échelle), ce qui rend difficile la couverture de l’espace d’embedding audiovisuel relativement complexe. Dans ce contexte, nous introduisons Rudder — un nouveau jeu de données multilingue pour la recherche vidéo-texte, comprenant des contenus audio et des légendes textuelles en marathi, hindi, tamoul, kannada, malayalam et télougou. Par ailleurs, nous proposons de compenser la rareté des données en exploitant des connaissances de domaine pour enrichir la supervision. À cette fin, au-delà des trois échantillons classiques d’un triplet (ancrage, positif, négatif), nous introduisons un quatrième terme — un « partiel » — afin de définir une perte basée sur un ordre partiel avec marge différentielle. Ces « partiels » sont échantillonnés de manière heuristique de manière à ce qu’ils se situent sémantiquement dans la zone de chevauchement entre les positifs et les négatifs, ce qui permet d’élargir la couverture de l’embedding. Nos approches surpassent de manière cohérente les pertes classiques à marge maximale et les pertes par triplet, et améliorent l’état de l’art sur les jeux de données MSR-VTT et DiDeMO. Nous présentons des résultats de référence sur Rudder tout en observant des gains significatifs grâce à la perte par ordre partiel, en particulier lorsque les modèles de recherche spécifiques à chaque langue sont entraînés conjointement en exploitant l’alignement interlingue entre les jeux de données spécifiques aux langues.