9日前

AdaBrowse:効率的な継続的手話認識のための適応型動画ブラウザ

Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng
AdaBrowse:効率的な継続的手話認識のための適応型動画ブラウザ
要約

実際の動画は、多くの場合、正確な認識に十分な情報が部分的なフレームにすでに含まれていることから、顕著な特徴の冗長性を有することが示されている。本論文では、このような冗長性が連続手話認識(CSLR)における効率的な推論を促進するために有効に活用可能かどうかに注目する。そこで、この問題を順次意思決定タスクとして定式化し、入力動画シーケンスから最も情報量の高い部分シーケンスを動的に選択する新しい適応型モデル(AdaBrowse)を提案する。具体的には、まず軽量なネットワークを用いて入力動画を高速にスキャンし、粗い特徴を抽出する。その後、これらの特徴をポリシーネットワークに供給し、処理対象となる部分シーケンスを知能的に選択する。選択された部分シーケンスは、通常のCSLRモデルによって最終的に文の予測が行われる。このプロセスではフレームの一部しか処理されないため、全体の計算量を大幅に削減できる。さらに、時間的冗長性に加え、空間的冗長性もシームレスに統合することで、さらなる効率化を実現する可能性に着目し、各サンプルに対して動的に最も低い入力解像度を選択するモデルを提案した。これをAdaBrowse+と呼ぶ。PHOENIX14、PHOENIX14-T、CSL-Daily、CSLの4つの大規模CSLRデータセットを用いた広範な実験により、AdaBrowseおよびAdaBrowse+が最先端手法と同等の精度を達成しつつ、1.44倍のスループットと2.12倍のFLOPs削減を実現した。他の一般的に用いられる2D CNNおよび適応型効率化手法との比較を通じて、AdaBrowseの有効性が確認された。コードは以下のURLで公開されている:\url{https://github.com/hulianyuyy/AdaBrowse}。

AdaBrowse:効率的な継続的手話認識のための適応型動画ブラウザ | 最新論文 | HyperAI超神経