MultiSubs : Un grand ensemble de données multimodales et multilingues

Ce document présente un vaste ensemble de données multimodal et multilingue visant à faciliter la recherche sur l'ancrage des mots aux images dans leur utilisation contextuelle en langage. L'ensemble de données est composé d'images sélectionnées pour illustrer sans ambiguïté les concepts exprimés dans des phrases tirées de sous-titres de films. Cet ensemble de données est une ressource précieuse car : (i) les images sont alignées sur des fragments de texte plutôt que sur des phrases entières ; (ii) plusieurs images peuvent être associées à un fragment de texte ou à une phrase ; (iii) les phrases sont libres et similaires à celles du monde réel ; (iv) les textes parallèles sont multilingues. Nous avons mis en place un jeu de complétion de phrases pour évaluer la qualité du processus de sélection automatique des images dans notre ensemble de données. Nous démontrons l'utilité de l'ensemble de données sur deux tâches automatiques : (i) complétion de phrases ; (ii) traduction lexicale. Les résultats de l'évaluation humaine et des modèles automatiques montrent que les images peuvent constituer un complément utile au contexte textuel. Cet ensemble de données bénéficiera particulièrement aux recherches sur l'ancrage visuel des mots, notamment dans le contexte des phrases libres, et peut être obtenu à partir de https://doi.org/10.5281/zenodo.5034604 sous licence Creative Commons.