vor 2 Monaten

Grundierte Textualentailment

Hoa Trong Vu; Claudio Greco; Aliia Erofeeva; Somayeh Jafaritazehjan; Guido Linders; Marc Tanti; Alberto Testoni; Raffaella Bernardi; Albert Gatt

Details der Forschungsarbeit anzeigen

Abstract

Das Erfassen semantischer Beziehungen zwischen Sätzen, wie der Implikation, stellt seit langem eine Herausforderung für die computergestützte Semantik dar. Logische Modelle analysieren die Implikation im Kontext möglicher Welten (Interpretationen oder Situationen), in denen eine Prämisse P eine Hypothese H impliziert, wenn H in allen Welten wahr ist, in denen P wahr ist. Statistische Modelle betrachten diese Beziehung wahrscheinlichkeitstheoretisch und adressieren sie hinsichtlich der Frage, ob ein Mensch wahrscheinlich H aus P ableiten würde. In dieser Arbeit möchten wir diese beiden Perspektiven verbinden und plädieren für eine visuell fundierte Version der Textimplikationsaufgabe. Insbesondere fragen wir, ob Modelle besser abschneiden können, wenn neben P und H auch ein Bild (das der relevanten „Welt“ oder „Situation“ entspricht) zur Verfügung steht. Wir verwenden eine multimodale Version des SNLI-Datensatzes (Bowman et al., 2015) und vergleichen „blinde“ und visuell erweiterte Modelle der Textimplikation. Wir zeigen, dass visuelle Informationen vorteilhaft sind, führen jedoch auch eine detaillierte Fehlernanalyse durch, die offenlegt, dass aktuelle multimodale Modelle die „Fundierung“ nicht auf optimale Weise durchführen.