Command Palette
Search for a command to run...
カスケード型デュアルビジョントランスフォーマーによる高精度な顔ランドマーク検出
カスケード型デュアルビジョントランスフォーマーによる高精度な顔ランドマーク検出
Ziqiang Dang Jianfang Li Lin Liu
概要
顔のランドマーク検出は、多くの下流アプリケーションにおいてコンピュータビジョンの基本的な問題です。本論文では、ビジョントランスフォーマーに基づく新しい顔のランドマーク検出器を提案します。この検出器には2つの独自設計が含まれています:デュアルビジョントランスフォーマー(D-ViT)とロングスキップコネクション(LSC)。特徴マップのチャネル次元が実質的にヒートマップ空間の線形基底を表すという観察に基づき、チャネル分割ViTを用いてこれらの線形基底間の相互関係を学習し、ランドマーク間の内在的な幾何学的関係をモデル化することを提案します。このようなチャネル分割ViTを標準的なビジョントランスフォーマー(すなわち、空間分割ViT)に統合し、予測ブロックを構成するデュアルビジョントランスフォーマーを形成します。さらに、ロングスキップコネクションを使用して低レベルの画像特徴量をすべての予測ブロックに伝達することで、中間監督によって有用な情報が捨てられるのを防ぐことを提唱します。広範囲にわたる実験が行われ、WFLW、COFW、300Wなど広く使用されているベンチマークで当社の提案手法の性能が評価され、当社モデルがこれら3つのベンチマーク全てにおいて以前の最先端技術(SOTA)を超えることが示されました。