MSVD-Indonésien : Une référence pour les tâches multimodales vidéo-texte en indonésien

L'apprentissage multimodal sur des données vidéo et texte attire de plus en plus l'attention de nombreux chercheurs dans diverses tâches de recherche, notamment la recherche texte-vidéo, la recherche vidéo-texte et la légendage vidéo. Bien que de nombreux algorithmes aient été proposés pour ces tâches difficiles, la plupart d'entre eux ont été développés à partir de jeux de données en anglais. Malgré le fait que l'indonésien soit l'une des langues les plus parlées au monde, les progrès de la recherche sur les données multimodales vidéo-texte avec des phrases en indonésien restent sous-exploités, probablement en raison de l'absence d'un jeu de données de référence publique. Pour remédier à ce problème, nous avons construit le premier jeu de données vidéo-texte indonésien en traduisant les phrases anglaises du jeu de données MSVD (Microsoft Video Description) en phrases indonésiennes. En utilisant notre jeu de données, nous avons ensuite formé des modèles de réseaux neuronaux qui avaient été développés pour le jeu de données vidéo-texte anglais sur trois tâches : recherche texte-vidéo, recherche vidéo-texte et légendage vidéo.Les approches récentes basées sur les réseaux neuronaux pour les tâches vidéo-texte utilisent souvent un extracteur de caractéristiques préformé principalement sur un jeu de données visuel-linguistique en anglais. Étant donné que la disponibilité des ressources d'apprentissage préalable avec des phrases en indonésien est relativement limitée, l'application de ces approches à notre jeu de données reste encore incertaine. Pour surmonter le manque de ressources d'apprentissage préalable, nous avons appliqué un apprentissage par transfert interlinguistique en utilisant les extracteurs de caractéristiques préformés sur le jeu de données anglais, puis nous avons affiné les modèles sur notre jeu de données indonésien. Nos résultats expérimentaux montrent que cette approche peut aider à améliorer les performances pour les trois tâches selon tous les critères évalués.Enfin, nous discutons des travaux futurs potentiels utilisant notre jeu de données, inspirant ainsi des recherches supplémentaires dans le domaine des tâches multimodales vidéo-texte en indonésien. Nous croyons que notre jeu de données et nos résultats expérimentaux peuvent apporter une contribution précieuse à la communauté. Notre jeu de données est disponible sur GitHub.