대조적 언어-이미지 사전학습 모델은 제로샷 인간 스캔패스 예측기입니다.

인간 주의력의 기저 메커니즘을 이해하는 것은 시각 과학과 인공 지능 모두에게 기본적인 도전 과제입니다. 자유롭게 관찰하는 모델은 많이 제안되었지만, 작업에 의해 이끌어지는 이미지 탐색의 메커니즘에 대해서는 잘 알려져 있지 않습니다. 이러한 간극을 메우기 위해, 본 연구에서는 캡션 작성 작업 중 수집된 캡션과 클릭에 따른 이미지 탐색 데이터베이스인 CapMIT1003를 소개합니다. CapMIT1003는 자유롭게 관찰하는 조건에서 안구 추적 데이터가 제공되는 유명한 MIT1003 벤치마크와 동일한 자극을 기반으로 하며, 이를 통해 인간 주의력에 대한 두 가지 작업을 동시에 연구할 수 있는 유망한 기회를 제공합니다. 우리는 이 데이터셋을 공개하여 해당 분야의 향후 연구를 지원하고자 합니다.또한, 우리는 NevaClip이라는 새로운 제로샷(zero-shot) 방법을 소개합니다. NevaClip은 대조적 언어-이미지 사전 학습(contrastive language-image pretrained, CLIP) 모델과 생물학적으로 영감받은 신경 시각 주의(Neural Visual Attention, NeVA) 알고리즘을 결합하여 시각 스캔패스(visual scanpaths)를 예측하는 방법입니다. NevaClip은 중심시(foveated visual stimulus) 자극의 표현과 관련된 캡션의 표현을 일치시키는 방식으로 인간 스캔패스를 시뮬레이트하며, 그래디언트 기반 시각 탐색을 사용하여 스캔패스를 생성합니다. 실험 결과, NevaClip은 캡션 작성 및 자유롭게 관찰하는 작업 모두에서 기존의 비지도 학습人类视觉注意力计算模型在扫描路径合理性方面表现更优。 此外,我们展示了使用错误或误导性的标题对NevaClip进行条件化会导致随机行为,突显了标题指导在决策过程中的重要影响。这些发现有助于更好地理解引导人类注意力的机制,并为能够整合下游任务直接自上而下指导的更复杂的计算方法铺平了道路。(注:最后两句话中出现了中文,可能是输入时的错误。根据上下文,我将它们翻译如下:)실험 결과, NevaClip은 캡션 작성 및 자유롭게 관찰하는 작업 모두에서 기존의 비지도 학습 인간 시각 주의력 계산 모델보다 스캔패스의 타당성 면에서 우수한 성능을 보였습니다. 또한, 잘못된 또는 오도하는 캡션으로 NevaClip을 조건화하면 무작위 행동이 나타나는데, 이는 캡션 지침이 의사 결정 과정에 미치는 중요한 영향을 강조합니다. 이러한 발견들은 인간 주의력을 안내하는 메커니즘에 대한 더 나은 이해를 돕고, 하류 작업의 직접적인 상향식(top-down) 지도를 통합할 수 있는 더 복잡한 스캔패스 예측 컴퓨팅 접근법 개발에 길을 열어줍니다.