HyperAIHyperAI
il y a 18 jours

Mediapi-RGB : Favoriser des avancées technologiques dans la recherche sur la langue des signes française (LSF) grâce à un corpus vidéo-texte étendu

{Annelies Braffort, Thomas Hueber, Denis Beautemps, Michèle Gouiffès, Hannah Bull, Yanis Ouakrim}
Mediapi-RGB : Favoriser des avancées technologiques dans la recherche sur la langue des signes française (LSF) grâce à un corpus vidéo-texte étendu
Résumé

Nous introduisons Mediapi-RGB, un nouveau corpus de langue des signes française (LSF), accompagné du premier modèle de traduction automatique LSF vers français. Comptant 86 heures de vidéos, il constitue le plus grand corpus de LSF à ce jour doté de traductions. Ce corpus est composé de contenus originaux en langue des signes française créés par des journalistes sourds, et inclut des sous-titres en français écrit, alignés temporellement avec les signes. La version actuelle de Mediapi-RGB est disponible sur le dépôt de corpus Ortolang et peut être utilisée à des fins de recherche académique. Les ensembles de test et de validation contiennent respectivement 13 et 7 heures de vidéos. L'ensemble d'entraînement, quant à lui, comprend 66 heures de vidéos, qui seront progressivement mises à disposition jusqu'en décembre 2024. Par ailleurs, cette version inclut pour toutes les vidéos des points clés squelettiques, une segmentation temporelle des signes, des caractéristiques spatio-temporelles, ainsi que des sous-titres pour les ensembles d'entraînement, de validation et de test, ainsi qu'un vocabulaire suggéré de noms, destiné à des fins d'évaluation. En outre, nous présentons les résultats obtenus sur ce corpus à l’aide de la première base de traduction LSF vers français, afin de dégager une vision des possibilités offertes par ce corpus de qualité inédite pour la LSF. Enfin, nous proposons plusieurs applications potentielles, tant technologiques que linguistiques, pour ce nouveau jeu de données vidéo-texte.

Mediapi-RGB : Favoriser des avancées technologiques dans la recherche sur la langue des signes française (LSF) grâce à un corpus vidéo-texte étendu | Articles de recherche récents | HyperAI