
顔面ランドマーク検出は、多数の顔画像解析応用において重要なステップである。近年、深層学習に基づく手法はこのタスクにおいて良好な性能を達成しているが、多くの場合、モバイルデバイス上で実行するには適していない。このような手法はパラメータ数が多いネットワークに依存しており、学習および推論に時間がかかるという問題がある。一方、MobileNetsのような軽量ニューラルネットワークの学習はしばしば困難であり、モデルの精度が低くなることがある。本研究では、知識蒸留(Knowledge Distillation, KD)のアイデアを参考に、軽量なStudentネットワーク(例:MobileNetV2)を顔面ランドマーク検出に向けた学習のために用いるための新たな損失関数を提案する。本手法では、Studentネットワークと併用して、耐性を持つTeacher(Tolerant-Teacher)と厳しいTeacher(Tough-Teacher)の2つのTeacherネットワークを用いる。Tolerant-Teacherはアクティブ形状モデルによって生成された「ソフトランドマーク(Soft-landmarks)」を用いて学習され、Tough-Teacherは正解ラベル(いわゆるハードランドマーク、Hard-landmarks)を用いて学習される。これらのTeacherネットワークが予測する顔面ランドマーク点を有効活用するため、各Teacherネットワークに対して「補助損失(Assistive Loss, ALoss)」を定義する。さらに、2つの事前学習済みTeacherネットワーク(EfficientNet-b3)が予測するランドマーク点を用いて、軽量Studentネットワークがハードランドマークを正確に予測するよう導くための損失関数「KD-Loss」を新たに定義した。3つの困難な顔面データセットにおける実験結果から、本研究で提案するアーキテクチャが、より高精度な顔面ランドマーク点を抽出可能な良好に訓練されたStudentネットワークの構築を可能にすることが示された。