2ヶ月前

自己中心活動認識における人間の視線を注目机制に統合する

Min, Kyle ; Corso, Jason J.
自己中心活動認識における人間の視線を注目机制に統合する
要約

人間の視線には視覚注意に関する重要な情報が含まれていることは広く知られています。しかし、深層ニューラルネットワークの注意メカニズムに視線データを組み込む際には、主に以下の3つの困難があります:1) 瞬きや素早い眼球運動により、視線固定点に測定誤差が生じやすいこと;2) 視線データが視覚注意とどの程度、どのようなタイミングで相関するか不明瞭であること;3) 実世界の多くの状況において視線データが常に利用可能ではないことです。本研究では、エゴセントリック活動認識における空間時間的な注意に人間の視線を取り入れるための効果的な確率的アプローチを提案します。具体的には、視線固定点の位置を構造化された離散潜在変数として表現し、その不確実性をモデル化します。さらに、変分法を使用して視線固定の分布をモデル化します。この視線分布は学習過程で学ばれるため、テスト時においては視線位置の真値アノテーションが不要となり、学習した視線分布から予測されます。予測された視線位置は、認識性能向上のために有用な注意情報を提供するために使用されます。我々の方法は、大規模なエゴセントリック活動認識データセットであるEGTEA(注目位置の測定値付き)において、これまでの最先端手法全てを上回っています。また、アブレーションスタディおよび定性的分析を行い、我々の注意メカニズムが効果的であることを示しています。

自己中心活動認識における人間の視線を注目机制に統合する | 最新論文 | HyperAI超神経