11日前

PaStaNet:ヒューマン・アクティビティ知識エンジンへの道

Yong-Lu Li, Liang Xu, Xinpeng Liu, Xijie Huang, Yue Xu, Shiyi Wang, Hao-Shu Fang, Ze Ma, Mingyang Chen, Cewu Lu
PaStaNet:ヒューマン・アクティビティ知識エンジンへの道
要約

従来の画像ベースの行動理解手法は、主に画像から行動概念へと直接マッピングするアプローチ(直接マッピング)を採用しているが、この方法は画像と行動概念の間にある大きなギャップのため、性能のボトルネックに直面する可能性がある。このような課題を踏まえ、本研究では新たなアプローチを提案する。すなわち、まず人間の身体部位の状態(Human Body Part States, PaSta)を推定し、その後、部位レベルの意味情報を基に行動を推論するというアプローチである。PaStaは、<手, 持つ, 何らかの物体> といった細粒度の行動意味トークンであり、行動を構成する基本単位として機能し、人間の行動理解のための知識エンジンへの道筋を提供する。PaStaの潜在能力を最大限に活用するため、700万件以上のPaStaアノテーションを含む大規模知識ベース「PaStaNet」を構築した。さらに、これに応じた2つのモデルを提案する。第一に、さまざまな行動に対して汎用的な表現を学習することを目的として、「Activity2Vec」と呼ばれるモデルを設計し、PaSta特徴を抽出する。第二に、PaStaに基づく推論手法を用いて行動を推定する。PaStaNetを活用することで、教師あり学習においてHICOデータセットのフルセットおよびワンショットセットでそれぞれ6.4および13.9のmAPを達成し、転移学習においてV-COCOおよび画像ベースのAVAでそれぞれ3.2および4.2のmAPを実現した。コードおよびデータは、http://hake-mvig.cn/ で公開されている。

PaStaNet:ヒューマン・アクティビティ知識エンジンへの道 | 最新論文 | HyperAI超神経