HyperAIHyperAI

Command Palette

Search for a command to run...

視覚キーワード検出における注意の役割

K R Prajwal* [email protected] Liliane Momeni* [email protected] Triantafyllos Afouras [email protected] Andrew Zisserman [email protected]

概要

本論文では、無音のビデオシーケンスから話されたキーワードを検出するタスク(視覚的なキーワード検出とも呼ばれる)について考察します。この目的のために、ビデオの視覚的なエンコーディングとキーワードの音韻的なエンコーディングの2つのストリームを取り入れ、キーワードが存在する場合その時間的位置を出力するTransformerベースのモデルを調査しました。我々の貢献は以下の通りです:(1) 両方のストリーム間で完全なクロスモーダル注意を使用する新しいアーキテクチャであるTranspotterを提案します;(2) 広範な評価を通じて、我々のモデルがLRW、LRS2、LRS3という難易度の高いデータセットにおいて、従来の最先端の視覚的なキーワード検出および唇読み方法よりも大幅に優れていることを示します;(3) 我々のモデルが手話ビデオにおける孤立した発音条件下でも単語を検出できる能力を実証します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
視覚キーワード検出における注意の役割 | 記事 | HyperAI超神経