17日前

AGRNet:顔解析における適応的グラフ表現学習と推論

Gusi Te, Wei Hu, Yinglu Liu, Hailin Shi, Tao Mei
AGRNet:顔解析における適応的グラフ表現学習と推論
要約

顔領域のピクセル単位のラベル推定(face parsing)は、顔の各部位に対してそれぞれピクセル単位でラベルを割り当てるタスクであり、近年注目を集めている。従来の手法は顔部位間の相関関係を無視している点で限界がある。実際、部位間の関係性は、顔領域における曖昧なピクセルを区別する上で重要な手がかりとなる。この問題に対処するため、本研究では顔部位間の関係性を適応的に学習・推論するグラフ表現学習手法を提案する。具体的には、各部位を代表する頂点(vertex)を学習し、部位間の関係性を活用することで、曖昧性に強い高精度なパース結果を実現することを目的としている。特に、予測されたパースマップを初期条件として、ピクセルから頂点への投影によって部位をグラフ上に表現する、適応的かつ微分可能なグラフ抽象化手法を設計した。この過程では、特定の顔領域内に含まれるピクセル特徴が、一つの頂点に集約される。さらに、モデル内に画像のエッジ情報を事前知識(prior)として明示的に組み込み、投影過程においてエッジ領域と非エッジ領域のピクセルを明確に区別できるようにすることで、エッジ沿いのパース結果がより精緻になる。その後、グラフ上の頂点間を介して情報伝搬を行うことで、部位間の関係性を学習・推論する。最後に、精緻化された頂点特徴を再びピクセルグリッドに投影し、最終的なパースマップを予測する。モデルの学習には、特徴空間における頂点間の距離が小さくなりすぎないよう罰則を課す「識別的損失(discriminative loss)」を提案した。これにより、意味的に明確で識別性の高い頂点が学習される。実験結果から、提案手法は複数の顔パースデータセットにおいて優れた性能を示した。また、人間のパースタスクにおいても有効性を検証することで、本手法の汎化能力の高さが示された。