HyperAIHyperAI
il y a 8 jours

ChinaOpen : Un jeu de données pour l'apprentissage multimodal en monde ouvert

ChinaOpen : Un jeu de données pour l'apprentissage multimodal en monde ouvert
Résumé

Cet article présente ChinaOpen, un jeu de données issu de Bilibili, une plateforme chinoise de partage de vidéos populaire, dédié à l’apprentissage multimodal dans un cadre « open-world ». Bien que les réseaux d’apprentissage multimodal les plus avancés aient démontré des performances impressionnantes dans l’annotation automatique de vidéos et la recherche vidéo cross-modale, leurs entraînements et évaluations sont principalement basés sur des vidéos YouTube accompagnées de textes en anglais. Leur efficacité sur des données chinoises reste à vérifier. Afin de soutenir l’apprentissage multimodal dans ce nouveau contexte, nous construisons ChinaOpen-50k, un ensemble d’apprentissage annoté de manière webly comprenant 50 000 vidéos Bilibili associées à des titres et étiquettes générés par les utilisateurs. Une nettoyage des données basé à la fois sur le texte et sur le contenu est effectué afin d’éliminer à l’avance les vidéos de faible qualité. Pour une évaluation multidimensionnelle, nous établissons ChinaOpen-1k, un ensemble de test manuellement étiqueté comprenant 1 000 vidéos. Chaque vidéo de test est accompagnée d’un titre utilisateur vérifié manuellement et d’une légende rédigée manuellement. Par ailleurs, chaque vidéo est manuellement étiquetée pour décrire les objets, actions et scènes présents dans le contenu visuel. Les étiquettes utilisateur originales sont également soumises à une vérification manuelle. En outre, en traduisant toutes les données textuelles chinoises en anglais, ChinaOpen-1k est également adapté à l’évaluation de modèles entraînés sur des données en anglais. En complément de ChinaOpen, nous proposons le modèle GVT (Generative Video-to-text Transformer), dédié à la génération de légendes pour vidéos en chinois. Nous menons une évaluation approfondie des modèles d’état de l’art, tant à tâche unique qu’à tâche multiple, sur ce nouveau jeu de données, aboutissant à plusieurs découvertes et observations originales.

ChinaOpen : Un jeu de données pour l'apprentissage multimodal en monde ouvert | Articles de recherche récents | HyperAI