HyperAIHyperAI

Command Palette

Search for a command to run...

Grundierte Textualentailment

Hoa Trong Vu Claudio Greco Aliia Erofeeva Somayeh Jafaritazehjan Guido Linders Marc Tanti Alberto Testoni Raffaella Bernardi Albert Gatt

Zusammenfassung

Das Erfassen semantischer Beziehungen zwischen Sätzen, wie der Implikation, stellt seit langem eine Herausforderung für die computergestützte Semantik dar. Logische Modelle analysieren die Implikation im Kontext möglicher Welten (Interpretationen oder Situationen), in denen eine Prämisse P eine Hypothese H impliziert, wenn H in allen Welten wahr ist, in denen P wahr ist. Statistische Modelle betrachten diese Beziehung wahrscheinlichkeitstheoretisch und adressieren sie hinsichtlich der Frage, ob ein Mensch wahrscheinlich H aus P ableiten würde. In dieser Arbeit möchten wir diese beiden Perspektiven verbinden und plädieren für eine visuell fundierte Version der Textimplikationsaufgabe. Insbesondere fragen wir, ob Modelle besser abschneiden können, wenn neben P und H auch ein Bild (das der relevanten „Welt“ oder „Situation“ entspricht) zur Verfügung steht. Wir verwenden eine multimodale Version des SNLI-Datensatzes (Bowman et al., 2015) und vergleichen „blinde“ und visuell erweiterte Modelle der Textimplikation. Wir zeigen, dass visuelle Informationen vorteilhaft sind, führen jedoch auch eine detaillierte Fehlernanalyse durch, die offenlegt, dass aktuelle multimodale Modelle die „Fundierung“ nicht auf optimale Weise durchführen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp