HyperAIHyperAI

Command Palette

Search for a command to run...

再帰なしの再帰:ディープ均衡モデルを用いた安定した動画ランドマーク検出

Paul Micaelli Arash Vahdat Hongxu Yin Jan Kautz Pavlo Molchanov

概要

ランドマーク検出モデルの発展過程において、予測を複数段階にわたり逐次的に改善する「カスケード計算(cascaded computation)」は、一貫して重要なテーマとして扱われてきた。本研究では、最近提案されたディープ均衡モデル(Deep Equilibrium Model, DEQ)が、この種の計算形式に自然に適応可能であることを示す。我々が提案するランドマークDEQ(LDEQ)は、挑戦的なWFLW顔ランドマークデータセットにおいて最先端の性能を達成し、パラメータ数を削減しつつ、再帰モジュール数に対してO(1)\mathcal{O}(1)O(1)の学習メモリコストを実現した。さらに、DEQが動画におけるランドマーク検出に特に適していることを示した。実際の動画データにラベルが付与されていないため、従来は静止画像のみで学習することが一般的であるが、これにより推論時に動画において「フレッケリング(flickering)」と呼ばれる現象が生じる——すなわち、連続するフレーム間でモデルが複数の妥当な解の間を急速に振動してしまう現象である。本研究では、DEQを制約付き最適化問題として再定式化することで、学習時には時系列データにアクセスできないにもかかわらず、推論時に再帰性を模倣する「再帰なしの再帰(Recurrence without Recurrence, RwR)」というパラダイムを構築した。このRwRアプローチにより、ランドマークのフレッケリングを顕著に低減できることを、新たに提案する「正規化平均フレッケリング(Normalized Mean Flicker, NMF)」という指標と、ランドマークの不確実性に焦点を当てた新たな顔ランドマーク動画データセット(WFLW-V)を用いて実証した。WFLW-Vのハードサブセット(500本の動画から構成)において、従来の手動チューニングされた従来型フィルタを用いた最強の既存モデルと比較して、RwRを導入したLDEQはNMEとNMFの両方でそれぞれ10%および13%の改善を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
再帰なしの再帰:ディープ均衡モデルを用いた安定した動画ランドマーク検出 | 記事 | HyperAI超神経