Visuelle Entailment | SOTA | HyperAI

Visual Entailment (VE) ist eine Aufgabe, die Bild-Satz-Paare beinhaltet, wobei die Prämisse durch ein Bild und nicht durch traditionellen Text bereitgestellt wird. Das Ziel besteht darin, vorherzusagen, ob das Bild die gegebene Aussage semantisch impliziert. VE hat erheblichen Anwendungswert im Schnittmengebereich zwischen visuellem Verständnis und natürlichsprachlicher Verarbeitung und kann die Leistung von multimodalen Schließungs-Systemen verbessern.