6ヶ月前

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Ukrit Watchareeruetai Benjaphan Sommana Sanjana Jain Pavit Noinongyao Ankush Ganguly Aubin Samacoits Samuel W.F. Earp Nakarin Sritrakool

概要

本稿では、座標回帰に基づく新たなTransformer型顔面ランドマーク定位ネットワーク「Localization Transformer（LOTR）」を提案する。提案するフレームワークは、特徴マップ内の空間情報をより効果的に活用するため、Transformerネットワークを活用した直接座標回帰アプローチである。LOTRモデルは、以下の3つの主要モジュールから構成される：1）入力画像を特徴マップに変換する視覚的バックボーン、2）視覚的バックボーンからの特徴表現を向上させるTransformerモジュール、3）Transformerの表現から直接ランドマーク座標を予測するランドマーク予測ヘッド。切り抜き・アライメント済みの顔画像を入力として用いる場合、提案するLOTRは後処理を必要とせずにエンドツーエンドで学習可能である。また、本稿ではWing損失関数の勾配不連続性を解消する「smooth-Wing損失関数」を導入し、従来のL1、L2、Wing損失関数と比較してより良好な収束性を実現することを示した。106点顔面ランドマーク定位の第一回グランドチャレンジで提供されたJDランドマークデータセットにおける実験結果から、LOTRはリーダーボード上で既存手法および最近のヒートマップベースアプローチ2種に対して優れた性能を示した。また、WFLWデータセットにおいても、多数の最先端手法と比較して有望な結果を達成した。さらに、本研究では、顔認識性能の最前線レベルを向上させるために、提案するLOTRを用いた顔のアライメントが有効であることを報告している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Ukrit Watchareeruetai Benjaphan Sommana Sanjana Jain Pavit Noinongyao Ankush Ganguly Aubin Samacoits Samuel W.F. Earp Nakarin Sritrakool

概要

本稿では、座標回帰に基づく新たなTransformer型顔面ランドマーク定位ネットワーク「Localization Transformer（LOTR）」を提案する。提案するフレームワークは、特徴マップ内の空間情報をより効果的に活用するため、Transformerネットワークを活用した直接座標回帰アプローチである。LOTRモデルは、以下の3つの主要モジュールから構成される：1）入力画像を特徴マップに変換する視覚的バックボーン、2）視覚的バックボーンからの特徴表現を向上させるTransformerモジュール、3）Transformerの表現から直接ランドマーク座標を予測するランドマーク予測ヘッド。切り抜き・アライメント済みの顔画像を入力として用いる場合、提案するLOTRは後処理を必要とせずにエンドツーエンドで学習可能である。また、本稿ではWing損失関数の勾配不連続性を解消する「smooth-Wing損失関数」を導入し、従来のL1、L2、Wing損失関数と比較してより良好な収束性を実現することを示した。106点顔面ランドマーク定位の第一回グランドチャレンジで提供されたJDランドマークデータセットにおける実験結果から、LOTRはリーダーボード上で既存手法および最近のヒートマップベースアプローチ2種に対して優れた性能を示した。また、WFLWデータセットにおいても、多数の最先端手法と比較して有望な結果を達成した。さらに、本研究では、顔認識性能の最前線レベルを向上させるために、提案するLOTRを用いた顔のアライメントが有効であることを報告している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています