
要約
骨格データを用いた行動認識は、コンピュータビジョン分野においてますます注目を集めている。近年、人体の骨格を時空間グラフとしてモデル化するグラフ畳み込みネットワーク(GCN)は、優れた性能を達成している。しかし、GCNに基づく手法の計算複雑度は非常に高く、1つの行動サンプルに対して通常15 GFLOPs以上を要し、最近の研究では約100 GFLOPsに達することもある。また、空間的グラフと時間的グラフの受容field(受容野)が柔軟性に欠けるという課題も指摘されている。一部の研究では、増分的適応モジュールを導入することで空間的グラフの表現力は向上しているが、依然として従来のGCN構造の制約により性能の限界に直面している。本論文では、これらの課題を克服する新たなシフトグラフ畳み込みネットワーク(Shift-GCN)を提案する。重い従来型のグラフ畳み込みを用いない代わりに、本Shift-GCNは新規のシフトグラフ演算と軽量なポイントワイズ畳み込みから構成されており、シフトグラフ演算により空間的グラフおよび時間的グラフの両方に対して柔軟な受容野を実現している。骨格に基づく行動認識を対象とする3つのデータセットにおいて、提案手法のShift-GCNは、最先端手法を大きく上回る性能を発揮しつつ、計算複雑度を10倍以上低減している。