17日前

COMPOSER:キーポイントのみを用いたモダリティによる動画内グループ活動の構成的推論

Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, Hans Peter Graf
COMPOSER:キーポイントのみを用いたモダリティによる動画内グループ活動の構成的推論
要約

グループ活動認識(Group Activity Recognition)は、複数のエージェントが共同で行う活動を検出するタスクであり、エージェントとオブジェクトの構成的推論を必要とする。本研究では、動画を動画内のマルチスケールな意味的コンセプトを表す「トークン」の集合としてモデル化することで、このタスクにアプローチする。提案するCOMPOSERは、マルチスケールTransformerベースのアーキテクチャであり、各スケールにおけるトークンに対して注目機構(attention)を用いた推論を行い、グループ活動の構成的特性を学習する。また、従来の手法はシーンバイアス(scene bias)の問題に直面しており、プライバシーおよび倫理的懸念も指摘されている。これに対して、我々はキーポイントモダリティのみを用いることで、シーンバイアスを低減し、ユーザーの個人情報や偏見を含む詳細な視覚データを取得するリスクを回避する。さらに、COMPOSERにおけるマルチスケール表現の向上のために、中間スケールの表現をクラスタリングし、各スケール間でクラスタ割り当ての一貫性を維持する手法を導入する。最終的に、キーポイント信号に特化した補助予測(auxiliary prediction)やデータ拡張技術を用いてモデルの学習を支援する。提案手法の有効性と解釈可能性は、広く用いられている2つのデータセット(VolleyballおよびCollective Activity)上で実証された。キーポイントモダリティのみを用いた場合でも、COMPOSERは最大で+5.4%の性能向上を達成した。コードはGitHubで公開されている:https://github.com/hongluzhou/composer