17日前

1つのエイヤで十分:シングルエンコーダを用いた視線推定のための軽量アンサンブル

Rishi Athavale, Lakshmi Sritan Motati, Rohan Kalahasty
1つのエイヤで十分:シングルエンコーダを用いた視線推定のための軽量アンサンブル
要約

近年、視線推定(gaze estimation)の精度は著しく向上している。しかし、これらのモデルは、他のコンピュータビジョン(CV)課題において効果が実証されているさまざまなCVアルゴリズムや技術(例えば、小規模なResNetやInceptionネットワーク、アンサンブルモデルなど)を十分に活用していない傾向にある。また、現在の大多数の視線推定モデルは、両眼または顔全体を入力として必要とするが、実世界のデータでは両眼が高解像度で取得できるとは限らない。この課題に応じて、本研究では、単一の目の画像を入力として視線を推定するためのResNetおよびInceptionアーキテクチャを採用した視線推定モデルを提案する。さらに、個々のアーキテクチャの予測結果を統合して、被験者固有の高精度な推定を行うためのアンサンブルキャリブレーションネットワークも提案する。軽量なアーキテクチャを用いることで、GazeCaptureデータセットにおいて非常に少ないモデルパラメータ数で高い性能を達成した。両眼を入力とした場合、キャリブレーションなしでテストセットにおいて1.591 cm、アンサンブルキャリブレーションモデルを用いると1.439 cmの予測誤差を達成した。一方、単一の目を入力とした場合でも、キャリブレーションなしで平均1.951 cm、アンサンブルキャリブレーションモデルを用いると平均1.951 cmの予測誤差を実現した。また、テストセットにおける右目の画像では、左目や全体の顔画像と比べて著しく低い誤差が観測されたことから、今後の視線推定ベースのツール設計において、右目の情報を特に重視する意義が示唆された。