ATF:異なるデータセット間の類似性と多様性を活用した堅牢な顔アライメントへ向けて
顔アライメントはマルチメディア分野における重要なタスクである。近年、アルゴリズムの著しい進展に伴い、さまざまなベンチマークデータセットが公開されている。直感的には、異なるアノテーションを持つ複数のラベル付きデータセットを統合することで、ターゲットランドマーク検出器の性能を向上させることができる。しかし、これまでの共同利用に関する多数の研究にもかかわらず、現在の手法には三つの課題が残っている。すなわち、追加の計算コスト、アノテーションスキームの制限、回帰手法に対する限界である。これらの問題に対処するために、本研究では、複数メディアソース間の類似性と多様性を活用することで、より堅牢な検出器を実現する新たな「交替学習フレームワーク(Alternating Training Framework, ATF)」を提案する。本フレームワークは、主に二つのサブモジュールから構成される:「比例減少付き交替学習(Alternating Training with Decreasing Proportions, ATDP)」と「混合ブランチ損失(Mixed Branch Loss, \mathcal{L}{MB})」。特に、ATDPは複数のデータセットを同時に学習することで、それらの間の多様性を活かす一方で、\mathcal{L}{MB}は対応するデータセットの異なるブランチを、類似するランドマークペアによって制約する。様々なベンチマークにおける広範な実験結果から、本フレームワークの有効性が確認された。また、ATFはヒートマップベースのネットワークと直接座標回帰の両方に対して適用可能であり、特にWFLWデータセットを活用した300W実験では、平均誤差が3.17にまで低下し、既存の最先端手法を大きく上回った。通常の畳み込みネットワーク(OCN)およびHRNetの両方において、ATFは最大で9.96%の相対的な性能向上を達成した。本研究の実装コードは、https://github.com/starhiking/ATF にて公開されている。