摘要

理解人类注意力背后的机制是视觉科学和人工智能领域的基本挑战。尽管已经提出了许多自由观看的计算模型，但对于任务驱动的图像探索机制知之甚少。为了解决这一差距，我们介绍了CapMIT1003数据库，该数据库收集了在描述任务中生成的字幕和点击依赖的图像探索数据。CapMIT1003基于著名的MIT1003基准测试中的相同刺激材料，这些材料在自由观看条件下有可用的眼动追踪数据，这为同时研究两种条件下的注意力机制提供了宝贵的机会。我们公开发布了这一数据集，以促进该领域的未来研究。此外，我们提出了一种新的零样本方法NevaClip，用于预测视觉扫描路径。NevaClip结合了对比语言-图像预训练（CLIP）模型和生物启发的神经视觉注意（NeVA）算法。通过将中心凹视觉刺激的表示与相关字幕的表示对齐，NevaClip模拟了人类的扫描路径，并采用梯度驱动的视觉探索来生成扫描路径。实验结果表明，NevaClip在描述任务和自由观看任务中均优于现有的无监督计算模型，在扫描路径合理性方面表现突出。进一步的研究显示，当使用错误或误导性的字幕对NevaClip进行条件约束时，其行为变得随机，突显了字幕引导在决策过程中的重要作用。这些发现有助于更好地理解指导人类注意力的机制，并为开发更复杂的计算方法铺平道路，这些方法可以整合下游任务的直接自上而下的指导来进行扫描路径预测。

源 PDF