
要約
スケルトンベースの行動認識は近年、大きな注目を集めている。現在のスケルトンベースの行動認識手法は、通常、one-hot分類タスクとして定式化されており、行動間の意味的関係を十分に活用していない。例えば、「勝利のサインを出す」と「アップサム(親指を立てる)」は、いずれも手のジェスチャーであるが、その主な差異は手の動きにある。この情報は、行動クラスのカテゴリカルなone-hot符号化からは無視されるが、行動の記述文から明らかにできる。したがって、学習時に行動の記述文を活用することは、表現学習に有益である可能性がある。本研究では、スケルトンベースの行動認識を対象として、生成型行動記述プロンプト(Generative Action-description Prompts: GAP)という新しいアプローチを提案する。具体的には、事前学習済みの大規模言語モデルを知識エンジンとして用い、行動における身体部位の動きを自動的にテキスト記述として生成する。さらに、テキストエンコーダを用いて異なる身体部位の特徴ベクトルを生成し、スケルトンエンコーダの行動表現学習をこの特徴ベクトルで監視するマルチモーダル学習スキームを提案する。実験の結果、GAP手法は推論時に追加の計算コストを要せず、さまざまなベースラインモデルに対して顕著な性能向上を達成した。また、NTU RGB+D、NTU RGB+D 120、NW-UCLAといった代表的なスケルトンベース行動認識ベンチマークにおいて、新たな最先端(SOTA)性能を達成した。ソースコードは以下のURLで公開されている:https://github.com/MartinXM/GAP。