
教師あり行動認識モデルを適用する際の時間のかかるラベル付与および再訓練サイクルを回避するため、ゼロショット行動認識(Zero-Shot Action Recognition, ZSAR)は注目される分野となっている。ZSARは、訓練データに一切登場しなかった行動を、視覚特徴と意味表現の間を橋渡しすることで認識することを要求する。しかし、行動の複雑性のため、ソース領域からターゲット領域への知識の転移は依然として困難である。従来のZSAR手法は、主にソース行動とターゲット行動間の表現ばらつきを軽減するために、新たな行動レベル特徴を統合または適用することに注力してきた。しかしながら、行動レベル特徴は粗い粒度であり、類似したターゲット行動に対しては学習された1対1の橋渡しを脆弱なものとしてしまう。また、特徴の統合や適用は通常、追加の計算負荷やラベル付けを要する。これらの手法は、異なる名前を持つ2つの行動が、同じ原子的行動コンポーネントを共有している可能性に注目していなかった。この点に着目することで、既知の行動から学習した原子的行動の組み合わせを提示されたことで、人間は未見の行動を迅速に理解できる。この知見を基に、本研究では「Jigsaw Network(JigsawNet)」を提案する。JigsawNetは、複雑な行動を原子的行動の組み合わせに自律的に分解し、視覚特徴と意味表現の間で「グループ対グループ」の関係を橋渡しすることで、行動認識を実現する。学習されたグループ対グループ橋渡しの堅牢性を向上させるために、サンプル内知識をモデル化する「Group Excitation(GE)モジュール」と、サンプル間知識に基づく学習を促す「Consistency Loss」を提案する。実験の結果、JigsawNetは3つのベンチマークにおいて最先端の性能を達成し、従来手法と顕著な差を示した。