2ヶ月前

画像からの社会関係認識のための多粒度推論

Meng Zhang; Xinchen Liu; Wu Liu; Anfu Zhou; Huadong Ma; Tao Mei
画像からの社会関係認識のための多粒度推論
要約

画像中の社会関係を発見することは、機械が人間の行動をより正確に解釈するのに役立ちます。しかし、画像から社会関係を自動的に認識することは、視覚的内容と社会関係の間に大きな隔たりがあるため、困難な課題となっています。既存の研究では、表情、身体の外見、周辺物体などの様々な特徴を個別に処理しているため、シーン、人物の地域的な手がかり、人物と物体との相互作用などの多粒度セマンティクスを包括的に捉えることができません。この領域間の隔たりを埋めるために、我々は画像からの社会関係認識用の多粒度推論フレームワークを提案します。全体的な知識と中間レベルの詳細は、それぞれ全体のシーンと人物や物体の領域から学習されます。最も重要なのは、人物の細粒度ポーズキーポイントを探ることで、人物と物体との相互作用を発見することです。具体的には、ポーズガイド付き人物-物体グラフ(Person-Object Graph)と人物-ポーズグラフ(Person-Pose Graph)を提案し、それぞれ人物から物体への動作とペアになった人物間の相互作用をモデル化します。これらのグラフに基づいて、グラフ畳み込みネットワークによって社会関係推論が行われます。最後に、全体的な特徴量と推論された知識が統合され、社会関係認識のために包括的な表現が得られます。2つの公開データセットでの広範な実験により、提案したフレームワークの有効性が示されています。

画像からの社会関係認識のための多粒度推論 | 最新論文 | HyperAI超神経