17日前

LOTR:ローカリゼーショントランスフォーマーを用いた顔ランドマークの局所化

Ukrit Watchareeruetai, Benjaphan Sommana, Sanjana Jain, Pavit Noinongyao, Ankush Ganguly, Aubin Samacoits, Samuel W.F. Earp, Nakarin Sritrakool
LOTR:ローカリゼーショントランスフォーマーを用いた顔ランドマークの局所化
要約

本稿では、座標回帰に基づく新たなTransformer型顔面ランドマーク定位ネットワーク「Localization Transformer(LOTR)」を提案する。提案するフレームワークは、特徴マップ内の空間情報をより効果的に活用するため、Transformerネットワークを活用した直接座標回帰アプローチである。LOTRモデルは、以下の3つの主要モジュールから構成される:1)入力画像を特徴マップに変換する視覚的バックボーン、2)視覚的バックボーンからの特徴表現を向上させるTransformerモジュール、3)Transformerの表現から直接ランドマーク座標を予測するランドマーク予測ヘッド。切り抜き・アライメント済みの顔画像を入力として用いる場合、提案するLOTRは後処理を必要とせずにエンドツーエンドで学習可能である。また、本稿ではWing損失関数の勾配不連続性を解消する「smooth-Wing損失関数」を導入し、従来のL1、L2、Wing損失関数と比較してより良好な収束性を実現することを示した。106点顔面ランドマーク定位の第一回グランドチャレンジで提供されたJDランドマークデータセットにおける実験結果から、LOTRはリーダーボード上で既存手法および最近のヒートマップベースアプローチ2種に対して優れた性能を示した。また、WFLWデータセットにおいても、多数の最先端手法と比較して有望な結果を達成した。さらに、本研究では、顔認識性能の最前線レベルを向上させるために、提案するLOTRを用いた顔のアライメントが有効であることを報告している。