Dialogue ouvert à plusieurs modalités

Les travaux récents sur les agents conversationnels à domaine ouvert ont montré qu’une amélioration significative des métriques d’engagement et de naturalité du modèle peut être obtenue grâce à une mise à l’échelle massive tant des données d’apprentissage préalable que de la taille du modèle (Adiwardana et al., 2020 ; Roller et al., 2020). Toutefois, si nous souhaitons développer des agents capables de reproduire des capacités humaines, il est essentiel de dépasser le traitement exclusif du texte. Un enjeu particulièrement crucial consiste à permettre à ces agents de percevoir des images et de communiquer efficacement sur ce qu’ils perçoivent. Dans le but d’engager les utilisateurs humains dans des dialogues multimodaux, nous explorons la combinaison de composants issus d’agents conversationnels d’avant-garde à domaine ouvert avec ceux provenant de modèles de vision d’avant-garde. Nous étudions diverses stratégies d’agrégation d’images, ainsi que des approches d’apprentissage préalable et de fine-tuning adaptatives au domaine, et démontrons que notre meilleur modèle obtient des performances supérieures à celles des modèles existants dans les dialogues multimodaux, tout en conservant des performances équivalentes à celles de son prédécesseur, BlenderBot (Roller et al., 2020), dans les interactions basées uniquement sur le texte. Nous étudions également l’intégration de composants de sécurité dans notre modèle final, et montrons que ces mesures n’entraînent pas de dégradation des performances en termes de métriques d’engagement.