2ヶ月前

視覚キーワード検出における注意の役割

K R Prajwal; Liliane Momeni; Triantafyllos Afouras; Andrew Zisserman
視覚キーワード検出における注意の役割
要約

本論文では、無音のビデオシーケンスから話されたキーワードを検出するタスク(視覚的なキーワード検出とも呼ばれる)について考察します。この目的のために、ビデオの視覚的なエンコーディングとキーワードの音韻的なエンコーディングの2つのストリームを取り入れ、キーワードが存在する場合その時間的位置を出力するTransformerベースのモデルを調査しました。我々の貢献は以下の通りです:(1) 両方のストリーム間で完全なクロスモーダル注意を使用する新しいアーキテクチャであるTranspotterを提案します;(2) 広範な評価を通じて、我々のモデルがLRW、LRS2、LRS3という難易度の高いデータセットにおいて、従来の最先端の視覚的なキーワード検出および唇読み方法よりも大幅に優れていることを示します;(3) 我々のモデルが手話ビデオにおける孤立した発音条件下でも単語を検出できる能力を実証します。

視覚キーワード検出における注意の役割 | 最新論文 | HyperAI超神経