要約
近年、深層畳み込みニューラルネットワーク(DCNNs)の発展を背景に、顔パーツ解析(face parsing)は急速な進展を遂げている。しかし、依然として以下の課題が存在する:(1)最先端のフレームワークは性能を追求するあまり、リアルタイム処理を満たしていない場合が多い;(2)外観が類似している領域では、特に境界部において誤ったピクセルラベルの割り当てが生じやすい;(3)マルチスケール予測を促進するため、深層特徴と浅層特徴を統合するが、両者の間にある意味的ギャップ(semantic gap)を考慮していない。これらの課題を克服するために、高速かつ高精度な顔パーツ解析を実現するための有効かつ効率的な階層的集約ネットワーク「EHANet」を提案する。具体的には、まず、高レベルの文脈情報を用いてチャネルを重要度に基づいて再符号化する「段階的文脈注意機構(SCAM)」を提案する。次に、階層的情報の有効な統合を保証するため、「意味的ギャップ補償ブロック(SGCB)」を導入する。さらに、重み付き境界認識損失(weighted boundary-aware loss)の利点を活かし、境界領域の意味的曖昧さを効果的に補完する。特に、追加の複雑な構造やチューニングを用いずに、軽量なバックボーンネットワークと組み合わせることで、CelebAMask-HQデータセット(mIoU 78.19%)およびHelenデータセット(F1スコア 90.7%)において優れた性能を達成した。さらに、1枚のGTX 1080Ti GPU上で640×640の入力サイズで55 FPS、256×256の解像度では300 FPS以上を実現可能であり、実世界におけるリアルタイム応用に適した性能を備えている。