
要約
本稿では、映像から抽出した人体骨格点列から3次元骨格点群を構築し、関連する人物間の文脈的関係を学習することにより、暴力行動を認識するための新規手法を提案する。従来の研究とは異なり、本研究ではまず映像から抽出された人体骨格点列をもとに3次元骨格点群を構成し、その点群上で相互作用学習を実施する。特に、局所領域内の点間における特異な重み分布戦略を構築することで、各点の特徴および空間時系列的位置情報を基に、最も関連性の高い部分に選択的に注目することを目的とする、新規の「骨格点相互作用学習(Skeleton Points Interaction Learning: SPIL)」モジュールを提案する。多様な関係情報の捉え方を実現するため、独立した複数のヘッドから得られる異なる特徴を統合するマルチヘッド機構を設計し、点間のさまざまな種類の関係を共同で処理できるようにしている。実験結果から、本モデルは既存のネットワークを上回り、動画内の暴力行動を識別するデータセットにおいて、新たな最先端(SOTA)性能を達成したことが確認された。