HyperAIHyperAI

Command Palette

Search for a command to run...

視覚的発話認識に関する別の視点

Frederic Precioso Charles Bouveyron Giacomo Valenti Laurent Pilati Baptiste Pouthier

概要

標準的な視覚的発話認識(VSR)システムは、生のピクセルデータと顔面特徴の間にあらかじめ定められた関係を持たせることなく、画像を直接入力特徴として処理する。顔面ランドマークが画像から抽出される際、ピクセル情報は効果的に選別され、グラフのノードとして再利用される。これにより、時間経過に伴うこれらのノードの変化は、グラフ畳み込みネットワーク(GCN)によってモデル化される。しかしながら、グラフベースのVSRはまだ初期段階にあり、点の選定やそれらの相関関係の定義は不十分であり、しばしば事前知識や手作業による技術に依存している。本論文では、VSRにおけるグラフアプローチの可能性を検討し、口元領域を越えた点間の相関関係を学習する能力について分析する。さらに、顔面の各領域がシステムの精度に果たす貢献度を検証し、広範に散在しつつも良好に接続されたグラフ構造が、計算負荷が低くかつ高精度を実現できることを実証する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています