Command Palette
Search for a command to run...
Hyeonsu Kang Emily Bao Anjan Goswami

摘要
视觉-语言模型(VLMs)在评估多模态内容(包括演示文稿幻灯片)中的应用日益广泛,但其对幻灯片内容的特定理解仍缺乏深入研究{尽管它们在以模型为中心的智能体(agentic)流水线中正扮演着日益重要的“评判者”角色}。为此,我们提出VLM-SlideEval,一个用于评估VLMs的框架,从三个维度对模型进行系统性探查:(1)从幻灯片图像中提取元素信息,并与真实标注(ground truth)进行对齐;(2)在几何、风格和文本等可控扰动下的鲁棒性;(3)更高层次的理解能力,例如从打乱顺序的幻灯片中恢复整个演示文稿的叙事逻辑。我们基于Zenodo平台公开的演示文稿数据集(此https URL),将PowerPoint的XML元数据与实时渲染结果统一标准化为一个一致且可验证的元数据模式。实证研究表明,VLMs在像素级精确提取任务中表现欠佳,且在受控扰动下虽展现出一定的共识性、保真度与一致性,但在单张幻灯片内容理解方面表现相对较好;然而,它们在跨幻灯片的叙事结构捕捉上仍不可靠。这些结果揭示了当前VLMs在幻灯片评估任务中的局限性,也推动了开发具备校准机制、嵌入“评判者”反馈循环的评估系统,以在智能体流水线中实现迭代优化与内容筛选。