视觉蕴含 | SOTA | HyperAI超神经

Visual Entailment (VE) 是一项任务，涉及图像-句子对，其中前提是通过图像而非传统文本形式给出。其目标是预测图像是否在语义上蕴含给定的句子。VE 在视觉理解和自然语言处理的交叉领域中具有重要应用价值，能够提升多模态推理系统的性能。