HyperAIHyperAI
il y a 11 jours

Exploiter le pouvoir du préentraînement multi-tâches pour des explications en langage naturel au niveau du vrai monde

Björn Plüster, Jakob Ambsdorf, Lukas Braach, Jae Hee Lee, Stefan Wermter
Exploiter le pouvoir du préentraînement multi-tâches pour des explications en langage naturel au niveau du vrai monde
Résumé

Les explications en langage naturel promettent de fournir des justifications intuitivement compréhensibles du processus décisionnel d’un réseau de neurones dans des tâches complexes de vision-langage, telles que poursuivies par les modèles récents de VL-NLE (Vision-Language Natural Language Explanation). Bien que les modèles actuels affichent des performances impressionnantes en termes de précision sur la tâche et de crédibilité des explications, ils souffrent de plusieurs limites : certains adoptent une architecture modulaire où le module de génération d’explications est mal intégré à un module distinct chargé de la prédiction de la réponse à la tâche ; d’autres reposent sur des modèles de base entraînés sur un ensemble restreint de tâches ; d’autres encore recourent à des solutions ad hoc afin d’améliorer leurs résultats sur une seule base de données. Nous proposons de surmonter ces limitations en appliquant les avancées récentes dans le pré-entraînement à grande échelle multi-tâches des modèles génératifs basés sur les Transformers au problème des tâches de VL-NLE. Notre approche dépasse largement les modèles récents, avec des annotateurs humains préférant les explications générées aux explications de référence dans deux des trois bases de données évaluées. En tant que nouveau défi dans la recherche sur le VL-NLE, nous introduisons le problème du VL-NLE multi-tâches et montrons que l’entraînement conjoint sur plusieurs tâches peut améliorer significativement la qualité des explications. Nous discutons également des implications éthiques de la génération d’explications de haute qualité et d’autres enjeux présents dans les recherches récentes sur le VL-NLE.

Exploiter le pouvoir du préentraînement multi-tâches pour des explications en langage naturel au niveau du vrai monde | Articles de recherche récents | HyperAI