HyperAI

Le Visual Entailment (VE) est une tâche impliquant des paires image-sentence, où la prémisse est fournie par une image plutôt que par un texte traditionnel. L'objectif est de prédire si l'image entaille sémantiquement la phrase donnée. Le VE présente une valeur d'application importante à l'intersection de la compréhension visuelle et du traitement du langage naturel, capable d'améliorer les performances des systèmes de raisonnement multimodal.

Entaillement Visuel | SOTA | HyperAI