サイクル自己調整を用いたデカップルドマルチタスク学習による顔解析

本論文は、顔解析(face parsing)における最先端手法が引き起こす典型的な失敗事例(例えば空間的一貫性の欠如や境界の混同)の内因的要因を調査する。これらの課題に対処するため、循環的自己規制を備えた分離型マルチタスク学習(Decoupled Multi-task Learning with Cyclical Self-Regulation; DML-CSR)を提案する。具体的には、顔解析、バイナリエッジ検出、カテゴリエッジ検出の3つのタスクを含むマルチタスクモデルを設計した。これらのタスクは低レベルのエンコーダ重みのみを共有し、高レベルの相互作用を一切行わないため、推論段階において補助モジュールを全体ネットワークから分離可能となる。空間的一貫性の問題に対処するため、追加のプーリング演算を一切用いずに、グローバルな文脈情報を捉えるための動的デュアルグラフ畳み込みネットワークを構築した。単顔および多顔状況における境界の混同問題に対しては、バイナリエッジとカテゴリエッジ検出を統合的に活用することで、人間の顔の一般的な幾何構造と詳細な意味情報(セマンティクス)を同時に獲得する。さらに、学習過程におけるノイズの多いラベルがモデルの汎化性能を低下させることを防ぐため、循環的自己規制機構を導入した。この機構では、複数のモデルインスタンスを自己アンサンブルし、新たなモデルを生成。その生成モデルを用いて次のモデルを自己蒸留(self-distillation)するという、交互に繰り返す反復プロセスを実現した。実験の結果、本手法はHelen、CelebAMask-HQ、Lapaの各データセットにおいて、現在の最先端性能を達成した。ソースコードは以下のURLから入手可能である:https://github.com/deepinsight/insightface/tree/master/parsing/dml_csr。