8日前

3次元空間における手の再構成にTransformerを活用する

Georgios Pavlakos, Dandan Shan, Ilija Radosavovic, Angjoo Kanazawa, David Fouhey, Jitendra Malik
3次元空間における手の再構成にTransformerを活用する
要約

単眼入力から3次元手の再構成を行う手法を提案する。本研究で紹介する手メッシュ回復手法(HaMeR: Hand Mesh Recovery)は、完全にTransformerベースのアーキテクチャを採用しており、従来の手法と比較して著しく高い精度と頑健性を実現している。HaMeRの成功の鍵は、学習に用いるデータ量と深層ネットワークの表現能力の両方を拡大した点にあり、それぞれにおいて新たなアプローチを採用している。学習データとしては、2次元または3次元の手のアノテーションを含む複数のデータセットを統合した。深層モデルにおいては、大規模なVision Transformerアーキテクチャを採用している。この最終的なモデルは、代表的な3次元手ポーズベンチマークにおいて、従来のベースラインを一貫して上回っている。さらに、制御されていない環境(in-the-wild)における本手法の有効性を評価するため、既存のin-the-wildデータセットに対して2次元手キーポイントのアノテーションを付与した。新たに構築したアノテーションデータセット「HInt」上で、既存のベースラインに対して顕著な性能向上を示した。本研究のコード、データ、モデルはプロジェクトウェブサイトにて公開されている:https://geopavlakos.github.io/hamer/。

3次元空間における手の再構成にTransformerを活用する | 最新論文 | HyperAI超神経