2ヶ月前
時限プーリングを超えて:ジェスチャ認識のための再帰と時限畳み込み
Lionel Pigou; Aäron van den Oord; Sander Dieleman; Mieke Van Herreweghe; Joni Dambre

要約
最近の研究では、再帰型ニューラルネットワークが機械翻訳、画像キャプショニング、音声認識においてその効果を示しています。しかし、ビデオにおける時間構造の捕捉に関する課題については、未だ多くの未解決の研究問題が存在します。現在の研究では、時間的な側面を考慮するために単純な時間特徴量プーリング戦略を使用することを提案しています。しかし、我々はこの方法がジェスチャ認識には十分でないことを示しました。ジェスチャ認識では、時間情報が一般的なビデオ分類タスクよりも識別力が高いからです。本研究では、ビデオ内のジェスチャ認識に向けた深層アーキテクチャを探索し、時間畳み込みと双方向再帰を組み込んだ新しいエンドツーエンド学習可能なニューラルネットワークアーキテクチャを提案します。我々の主な貢献は二つあります。第一に、このタスクにおいて再帰が重要であることを示しました;第二に、時間畳み込みを追加することで大幅な改善が得られることを示しました。異なるアプローチについてモンタルバノジェスチャ認識データセットで評価を行い、最先端の結果を得ました。(注:「Montalbano gesture recognition dataset」は「モンタルバノジェスチャ認識データセット」と訳しました。「bidirectional recurrence」は「双方向再帰」と訳しました。)