HyperAIHyperAI

Command Palette

Search for a command to run...

LOTR:ローカリゼーショントランスフォーマーを用いた顔ランドマークの局所化

Ukrit Watchareeruetai Benjaphan Sommana Sanjana Jain Pavit Noinongyao Ankush Ganguly Aubin Samacoits Samuel W.F. Earp Nakarin Sritrakool

概要

本稿では、座標回帰に基づく新たなTransformer型顔面ランドマーク定位ネットワーク「Localization Transformer(LOTR)」を提案する。提案するフレームワークは、特徴マップ内の空間情報をより効果的に活用するため、Transformerネットワークを活用した直接座標回帰アプローチである。LOTRモデルは、以下の3つの主要モジュールから構成される:1)入力画像を特徴マップに変換する視覚的バックボーン、2)視覚的バックボーンからの特徴表現を向上させるTransformerモジュール、3)Transformerの表現から直接ランドマーク座標を予測するランドマーク予測ヘッド。切り抜き・アライメント済みの顔画像を入力として用いる場合、提案するLOTRは後処理を必要とせずにエンドツーエンドで学習可能である。また、本稿ではWing損失関数の勾配不連続性を解消する「smooth-Wing損失関数」を導入し、従来のL1、L2、Wing損失関数と比較してより良好な収束性を実現することを示した。106点顔面ランドマーク定位の第一回グランドチャレンジで提供されたJDランドマークデータセットにおける実験結果から、LOTRはリーダーボード上で既存手法および最近のヒートマップベースアプローチ2種に対して優れた性能を示した。また、WFLWデータセットにおいても、多数の最先端手法と比較して有望な結果を達成した。さらに、本研究では、顔認識性能の最前線レベルを向上させるために、提案するLOTRを用いた顔のアライメントが有効であることを報告している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています