要約
本稿では、映像における人体活動認識を実現するための手法を提示する。この手法は、外見情報および光流(optical flow)情報を入力として用いる深層再帰ネットワークを採用している。提案手法は、再帰層を入力データの関連性の高い部分に分散配置した複数のモジュール(以下「バブル」と呼ぶ)に分離し、squeeze-and-excitation戦略に基づく注目メカニズムを導入することで、各バブルの寄与度を調整する新しいアーキテクチャ「BubbleNET」を構築している。これにより、入力データの本質的に相関する部分からの情報を統合し、各活動を特徴づけるコンポーネントの「特徴パターン(signature)」を構築することを目的としている。広く用いられている活動認識データセット上で実施した実験結果から、これらの特徴パターンの存在が裏付けられており、データセット各クラスにおけるバブルの活性化マップによってその有効性が明確に示されている。文献に報告された手法との比較においては、平均正解率を評価指標として用いたところ、BubbleNETはUCF-101、YUP++、HMDB-51データセットでそれぞれ97.62%、91.70%、82.60%の精度を達成し、最先端の手法と同等の性能を示した。