2ヶ月前

TARN: 時間的注意関係ネットワークによる少ショットおよびゼロショット行動認識

Mina Bishay; Georgios Zoumpourlis; Ioannis Patras
TARN: 時間的注意関係ネットワークによる少ショットおよびゼロショット行動認識
要約

本論文では、少ないショットやゼロショットの行動認識問題に対して新しい時系列注目関係ネットワーク(Temporal Attentive Relation Network: TARN)を提案します。当ネットワークの中心には、可変長の表現を比較するためのメタ学習アプローチが存在します。つまり、異なる長さの2つのビデオ(少ないショットの行動認識の場合)またはビデオと意味表現(例えば単語ベクトル)(ゼロショットの行動認識の場合)を比較することができます。他の少ないショットやゼロショットの行動認識に関する研究と対照的に、我々はa) 時系列アライメントを行うために注意機構を利用し、b) アライメントされたビデオセグメントレベルでの深層距離測定を学習します。エピソードベースの訓練スキームを採用し、ネットワーク全体で端から端まで訓練を行います。提案手法は、目標ドメインでの微調整やメモリネットワークのように追加の表現を維持することを必要とせず、実験結果は提案アーキテクチャが少ないショットの行動認識において最先端技術を超える性能を示し、ゼロショットの行動認識でも競争力のある結果を得ていることを示しています。