2ヶ月前

コントラスティブ言語-画像事前学習モデルはゼロショット人間の視線予測器である

Dario Zanca; Andrea Zugarini; Simon Dietz; Thomas R. Altstidl; Mark A. Turban Ndjeuha; Leo Schwinn; Bjoern Eskofier
コントラスティブ言語-画像事前学習モデルはゼロショット人間の視線予測器である
要約

人間の注意を制御するメカニズムの理解は、視覚科学と人工知能にとって基本的な課題である。多くの自由視野の計算モデルが提案されている一方で、タスク駆動型画像探索のメカニズムについてはまだ十分に解明されていない。このギャップを埋めるため、我々はキャプション作成タスク中に収集されたキャプションとクリック依存型画像探索データベースのデータベース「CapMIT1003」を提示する。CapMIT1003は、自由視野条件での眼動データが利用可能な有名なMIT1003ベンチマークと同じ刺激に基づいており、これにより人間の注意を両方のタスクにおいて同時に研究する有望な機会が提供される。本データセットを公開することで、この分野における今後の研究を促進することを目指している。さらに、NevaClipという新しいゼロショット手法を紹介する。NevaClipは、コントラスティブ言語-画像事前学習(CLIP)モデルと生物学的にインスピレーションを受けたニューラル視覚注意(NeVA)アルゴリズムを組み合わせて視覚スキャンパスを予測する方法である。NevaClipは、中心凹視覚刺激と関連キャプションの表現を一致させることで人間のスキャンパスをシミュレートし、勾配駆動型視覚探索を使用してスキャンパスを生成する。実験結果では、NevaClipが既存の無教師人間視覚注意計算モデルよりも、キャプション作成および自由視野タスクにおけるスキャンパスの妥当性において優れていることが示された。また、NevaClipに誤ったまたは誤導的なキャプションを与えた場合、ランダムな行動が見られることが明らかになった。これは、キャプションガイドが意思決定プロセスに大きな影響を与えることを強調している。これらの知見は、人間の注意を誘導するメカニズムの理解に貢献し、下流タスクへの直接的なトップダウンガイダンスを取り入れたより洗練された計算アプローチによるスキャンパス予測への道を開くものである。

コントラスティブ言語-画像事前学習モデルはゼロショット人間の視線予測器である | 最新論文 | HyperAI超神経