17日前

アクション認識のためのSMARTフレーム選択

Shreyank N Gowda, Marcus Rohrbach, Laura Sevilla-Lara
アクション認識のためのSMARTフレーム選択
要約

行動認識は計算コストが高いため、本論文では行動認識の精度向上を目的としたフレーム選択の問題に取り組む。特に、フレームの良質な選択が、トリムされた動画(trimmed videos)の領域においても行動認識性能の向上に寄与することを示す。近年の研究では、内容の多くが関連性がなく、容易に除外可能な長時間で非トリムされた動画(untrimmed videos)に対して、フレーム選択が有効に活用されている。しかし、本研究では、より一般的な短時間でトリムされた行動認識問題に焦点を当てる。我々は、良質なフレーム選択が、行動認識の計算コストを削減するだけでなく、分類が困難なフレームを排除することで認識精度を向上させ得ることを主張する。従来の手法とは異なり、本研究では1フレームずつ独立して選択するのではなく、複数のフレームを同時に考慮する統合的な選択手法を提案する。これにより、動画全体にわたって良質なフレームがより効果的に分布し、物語を伝えるような「スナップショット」の集合となる。提案手法をSMART(Selective Multi-frame Attention for Recognition Tasks)と命名し、異なるバックボーンアーキテクチャと複数のベンチマーク(Kinetics、Something-something、UCF101)を用いて検証した。その結果、他のフレーム選択戦略と比較して、SMARTは一貫して認識精度を向上させるとともに、計算コストを4~10倍まで削減することを示した。さらに、認識性能が主な目的である場合、本手法はUCF101、HMDB51、FCVID、ActivityNetなど多様なベンチマークにおいて、最近の最先端モデルおよびフレーム選択手法を上回る性能を達成することを実証した。

アクション認識のためのSMARTフレーム選択 | 最新論文 | HyperAI超神経