
要約
近年の顔ランドマーク検出に関する多くの進展は、モデルパラメータの積み重ねやアノテーションの拡張に起因している。しかし、これに続く三つの課題が残っている。すなわち、1)計算負荷の増加、2)モデルパラメータの増加に伴う過学習のリスク、3)人的作業によるアノテーションの負担の増大である。本研究では、検出器の弱みを明らかにし、それらを改善することによって、堅牢な顔ランドマーク検出を実現するアプローチが有望であると主張する。これを実現するために、攻撃者と検出器の相互最適化を可能にする、サンプル適応型敵対的訓練(Sample-Adaptive Adversarial Training, SAAT)を提案する。この手法は、サンプル適応型ブラックボックス攻撃に対する防御として、顔ランドマーク検出の性能を向上させる。敵対的攻撃を活用することで、SAATは手動で設計された変換を超える敵対的摂動を用いて検出器の性能を改善する。具体的には、攻撃者が検出器の弱みを反映する敵対的摂動を生成し、検出器はその摂動に対する堅牢性を高めることで、敵対的攻撃に対抗する能力を強化する。さらに、敵対的サンプルの増強に伴うリスクと利点をバランスさせるためのサンプル適応型重みを導入している。また、本手法の評価を目的として、マスク付き顔アライメントデータセット「Masked-300W」を提案する。実験の結果、本手法のSAATは既存の最先端手法と同等の性能を達成した。本研究のデータセットおよびモデルは、https://github.com/zhuccly/SAAT にて公開されている。