2ヶ月前

サピエンス:ヒューマンビジョンモデルの基礎

Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito
サピエンス:ヒューマンビジョンモデルの基礎
要約

私たちは、4つの基本的な人間中心のビジョンタスク——2Dポーズ推定、体部位セグメンテーション、深度推定、および表面法線予測——に向けたモデル群「Sapiens」を紹介します。これらのモデルは、1K高解像度推論をネイティブでサポートしており、3億枚以上の野生環境下の人間画像で事前学習されたモデルを微調整するだけで個々のタスクに非常に簡単に適応できます。同じ計算リソースの予算内において、人間画像の選別されたデータセットでの自己監督型事前学習が多様な人間中心タスクの性能を大幅に向上させることを観察しました。得られたモデルは、ラベル付きデータが少ない場合や完全に合成データしかない場合でも、野生環境下のデータに対する優れた汎化能力を示しています。また、私たちの単純なモデル設計はスケーラビリティももたらし、パラメータ数を0.3億から20億まで拡大することで各タスクにおけるモデル性能が向上します。Sapiensは、さまざまな人間中心ベンチマークで既存のベースラインを超える一貫した性能を発揮しています。特にHumans-5K(ポーズ)では7.6 mAP、Humans-2K(部位セグメンテーション)では17.1 mIoU、Hi4D(深度)では相対RMSEで22.4%、THuman2(法線)では相対角度誤差で53.5%という大幅な改善を達成しました。注:- mAP: mean Average Precision(平均精度)- mIoU: mean Intersection over Union(平均交差率)- RMSE: Root Mean Square Error(平方根平均二乗誤差)- 相対角度誤差: relative angular error

サピエンス:ヒューマンビジョンモデルの基礎 | 最新論文 | HyperAI超神経