il y a 2 mois

Entailment Textuel Ancré

Hoa Trong Vu; Claudio Greco; Aliia Erofeeva; Somayeh Jafaritazehjan; Guido Linders; Marc Tanti; Alberto Testoni; Raffaella Bernardi; Albert Gatt

Voir les détails de l'article

Résumé

La capture des relations sémantiques entre les phrases, telles que l'entraînement (entailment), constitue un défi de longue date pour la sémantique computationnelle. Les modèles basés sur la logique analysent l'entraînement en termes de mondes possibles (interprétations ou situations) où une prémisse P entraîne une hypothèse H si et seulement si, dans tous les mondes où P est vraie, H est également vraie. Les modèles statistiques considèrent cette relation de manière probabiliste, en abordant la question de savoir si un humain serait susceptible d'inférer H à partir de P. Dans cet article, nous souhaitons combler ces deux perspectives en plaidant pour une version visuellement ancrée de la tâche d'Entraînement Textuel. Plus précisément, nous nous demandons si les modèles peuvent performer mieux lorsque, en plus de P et H, il y a également une image (correspondant au monde ou à la situation pertinents). Nous utilisons une version multimodale du jeu de données SNLI (Bowman et al., 2015) et nous comparons les modèles d'entraînement textuel « aveugles » et visuellement augmentés. Nous montrons que l'information visuelle est bénéfique, mais nous menons également une analyse approfondie des erreurs qui révèle que les modèles multimodaux actuels ne réalisent pas l'« ancrage » de manière optimale.