
要約
深層ニューラルネットワークは、コンピュータビジョンタスクにおいて特徴抽出エンジンとして標準的な選択肢となり、広く利用されている。現在の主流アプローチは、入力データを一括処理する形で均一な解像度で処理し、すべての予測を一度に実行するものである。しかし、人間の視覚は「能動的」なプロセスであり、視野内の焦点点を積極的に切り替えながら、その焦点を中心に空間的に変化する注意を向けている。このギャップを埋めるために、我々は「中心視(foveation)」と「急動(saccades)」という生物学的に妥当なメカニズムを組み込み、能動的な物体位置特定フレームワークを提案する。中心視により、入力の異なる領域に対して異なるレベルの詳細度で処理が可能となり、急動により、その中心視領域の焦点点を動的に切り替えることが可能になる。実験の結果、これらのメカニズムにより、重要なオブジェクト部位をすべて捉えつつ、不要な背景ノイズを最小限に抑えることで、予測されたバウンディングボックスの品質が向上することが明らかになった。さらに、1枚の画像に1つのオブジェクトしか含まれないデータセットで学習させたにもかかわらず、複数のオブジェクトを検出する能力を維持できることから、本手法のロバスト性が示された。最後に、興味深い「カモ・ウサギ」錯視を用いた実験を通じて、本手法が人間の知覚とどのように整合するかを検証した。コードは以下より公開されている:https://github.com/TimurIbrayev/FALcon。