11日前

骨格ベースの行動認識における言語知識支援型表現学習

Haojun Xu, Yan Gao, Zheng Hui, Jie Li, Xinbo Gao
骨格ベースの行動認識における言語知識支援型表現学習
要約

人間が他者の行動をどのように理解し、認識するかという問題は、認知メカニズムと神経ネットワークの複合的な働きを伴う、極めて複雑な神経科学的課題である。研究によれば、人間の脳には上位からの注意情報(top-down attentional information)を処理する領域として、 temporoparietal association area(頭頂側頭連合領域)が存在することが明らかになっている。また、他者の心や意図を理解し分析するための脳領域として、側頭葉の内側前頭前野(medial prefrontal cortex)が挙げられる。スケルトンベースの行動認識は、人間の骨格運動パターンと行動との間の複雑な関係をマッピングする手法である。既存の研究では、意味のあるノード間関係を符号化し、分類に向けた行動表現を合成することで良好な成果が得られているが、その多くは、事前知識(a priori knowledge)を導入して表現学習の性能を向上させる点に配慮していない。本研究では、大規模言語モデル(LLM)の知識を活用したグラフ畳み込みネットワーク(LA-GCN)を提案する。まず、LLMの知識を、ノード間の事前知識としてのグローバル関係(GPR: a priori global relationship)トポロジーとカテゴリ関係(CPR: a priori category relationship)トポロジーに変換する。GPRは、データレベルで重要なノード情報に注目するよう促す新たな「骨」表現の生成をガイドする。一方、CPRは人間の脳領域におけるカテゴリに関する事前知識を模倣し、PC-ACモジュールによって符号化された後、モデルがクラス区別可能な特徴を学習するよう追加の監視信号として用いられる。さらに、トポロジーモデリングにおける情報伝達効率を向上させるために、マルチホップ注意グラフ畳み込み(multi-hop attention graph convolution)を提案する。この手法は、各ノードのk階近傍を同時に集約することで、モデルの収束速度を高速化する。実験の結果、LA-GCNはNTU RGB+D、NTU RGB+D 120、NW-UCLAの各データセットにおいて、最先端の性能を達成した。

骨格ベースの行動認識における言語知識支援型表現学習 | 最新論文 | HyperAI超神経