
要約
顔パーパースは、顔の各部位に対してピクセル単位のラベルを推定するタスクであり、近年注目を集めている。従来の手法は顔領域間の相関関係を無視しているため、顔の外見、姿勢、表情などの重要な手がかりを十分に活用できていない。本研究では、グラフ表現を学習することで領域間の関係性をモデル化・推論し、領域間のエッジ情報を活用して抽象化を最適化することを提案する。具体的には、特徴が類似するピクセル群(「領域」)をグラフの頂点に投影することで、顔画像をグローバルなグラフ表現に符号化する。本モデルは、グラフ上の頂点間を介して情報伝搬を行うことで、領域間の関係性を学習・推論する。さらに、エッジ情報を用いてピクセルレベルの特徴を頂点に集約することで、エッジ周辺の特徴に注目し、エッジ沿いの高精度なセグメンテーションを実現する。最終的に学習されたグラフ表現は、ピクセルグリッドに戻されて顔パーパースに利用される。実験の結果、広く用いられるHelenデータセットにおいて最先端の手法を上回る性能を示し、大規模データセットであるCelebAMask-HQおよびLaPaデータセットでも優れた性能を発揮した。コードは以下のURLで公開されている:https://github.com/tegusi/EAGRNet。