HyperAIHyperAI
il y a 13 jours

Distiller l’image vers nulle part : une distillation de connaissances par inversion pour la traduction automatique multimodale

Ru Peng, Yawen Zeng, Junbo Zhao
Distiller l’image vers nulle part : une distillation de connaissances par inversion pour la traduction automatique multimodale
Résumé

Les travaux antérieurs sur la traduction automatique multimodale (MMT) ont élargi le cadre bilingue en intégrant des informations visuelles alignées supplémentaires. Toutefois, la contrainte imposée par les jeux de données multimodaux — à savoir la nécessité d’un alignement entre [image, texte source, texte cible] — constitue un frein majeur au développement de la MMT. Cette limitation s’avère particulièrement problématique lors de l’étape d’inférence, notamment lorsque l’image alignée n’est pas disponible, comme dans le cadre classique de la traduction automatique neuronale (NMT). Dans ce travail, nous proposons IKD-MMT, un nouveau cadre de MMT permettant de supporter une phase d’inférence sans image grâce à une stratégie de distillation de connaissances par inversion. Plus précisément, un générateur de caractéristiques multimodales est couplé à un module de distillation de connaissances, qui génère directement les caractéristiques multimodales à partir uniquement du texte source en entrée. Bien qu’un certain nombre d’approches antérieures aient exploré la possibilité de permettre l’inférence sans image dans la traduction automatique, leurs performances n’ont pas encore atteint celles des méthodes nécessitant l’image. Dans nos expériences, nous démontrons que notre méthode est la première approche sans image à rivaliser de manière globale, voire à surpasser (presque) toutes les architectures nécessitant l’image, tout en atteignant un résultat de pointe sur la benchmark Multi30k largement utilisée. Le code et les données sont disponibles à l’adresse suivante : https://github.com/pengr/IKD-mmt/tree/master.