17日前
視覚的発話認識に関する別の視点
{Frederic Precioso, Charles Bouveyron, Giacomo Valenti, Laurent Pilati, Baptiste Pouthier}

要約
標準的な視覚的発話認識(VSR)システムは、生のピクセルデータと顔面特徴の間にあらかじめ定められた関係を持たせることなく、画像を直接入力特徴として処理する。顔面ランドマークが画像から抽出される際、ピクセル情報は効果的に選別され、グラフのノードとして再利用される。これにより、時間経過に伴うこれらのノードの変化は、グラフ畳み込みネットワーク(GCN)によってモデル化される。しかしながら、グラフベースのVSRはまだ初期段階にあり、点の選定やそれらの相関関係の定義は不十分であり、しばしば事前知識や手作業による技術に依存している。本論文では、VSRにおけるグラフアプローチの可能性を検討し、口元領域を越えた点間の相関関係を学習する能力について分析する。さらに、顔面の各領域がシステムの精度に果たす貢献度を検証し、広範に散在しつつも良好に接続されたグラフ構造が、計算負荷が低くかつ高精度を実現できることを実証する。