2ヶ月前

ViTGaze: Vision Transformersにおける相互作用特徴を用いた視線追跡

Song, Yuehao ; Wang, Xinggang ; Yao, Jingfeng ; Liu, Wenyu ; Zhang, Jinglin ; Xu, Xiangmin
ViTGaze: Vision Transformersにおける相互作用特徴を用いた視線追跡
要約

視線追跡は、人間とシーンの相互作用を解釈するために、人の注視点を予測することを目指しています。現行の手法では、多くの場合、多様なモダリティ情報が抽出される初期段階と、その情報を用いて視線目標を予測する後段階からなる二段階フレームワークが採用されています。したがって、これらの方法の効果は、先行するモダリティ抽出の精度に大きく依存します。一方で、複雑なデコーダーを使用する単一モダリティアプローチも存在し、ネットワークの計算負荷が増加します。事前学習された純粋なビジョントランスフォーマー(ViTs)の著しい成功に着想を得て、私たちは新しい単一モダリティの視線追跡フレームワークであるViTGazeを提案します。従来の方法とは異なり、このフレームワークは主に強力なエンコーダー(デコーダーパラメータ比1%未満)に基づいて構築されています。私たちの主要な洞察は、自己注意機構内のトークン間相互作用が人間とシーンとの相互作用に転用できるというものです。この仮説に基づき、4D相互作用エンコーダーと2D空間ガイダンスモジュールからなるフレームワークを定式化し、自己注意マップから人間とシーンとの相互作用情報を抽出します。さらに、我々の調査では、自己監督型事前学習を経たViTが相関情報の抽出能力を向上させていることが明らかになりました。提案手法の性能を示すために多数の実験が行われました。当該手法はすべての単一モダリティ手法の中で最先端(SOTA)の性能を達成しており(曲线下面積(AUC)スコアで3.4%向上、平均精度(AP)で5.1%向上)、パラメータ数が59%少ないにもかかわらず多様性手法と非常に匹敵する性能を示しています。