Command Palette
Search for a command to run...
サピエンス:人間の視覚モデルの基盤
サピエンス:人間の視覚モデルの基盤
Rawal Khirodkar Timur Bagautdinov Julieta Martinez Su Zhaoen Austin James Peter Selednik Stuart Anderson Shunsuke Saito
概要
本稿では、2次元ポーズ推定、身体部位セグメンテーション、深度推定、表面法線予測の4つの基本的な人間中心型ビジョンタスクを対象としたモデル群「Sapiens」を紹介する。本モデル群は、1Kの高解像度推論をネイティブにサポートしており、3億枚以上の自然な状況下における人間画像で事前学習されたモデルを単に微調整するだけで、各タスクに容易に適応可能である。同じ計算リソースを用いた場合、人間画像の精選データセット上で自己教師学習を実施することで、多様な人間中心型タスクの性能が顕著に向上することを観察した。その結果得られたモデルは、ラベル付きデータが限られている場合や完全に合成データのみの状況下でも、自然な状況下のデータに対して優れた汎化性能を示す。また、本研究の単純なモデル設計により、スケーラビリティが実現されており、パラメータ数を0.3億から20億に拡大するに従い、全タスクにおけるモデル性能が向上する。Sapiensは、さまざまな人間中心型ベンチマークにおいて、既存のベースラインを一貫して上回っている。具体的には、Humans-5K(ポーズ)で7.6 mAP、Humans-2K(部位セグメンテーション)で17.1 mIoU、Hi4D(深度)で相対RMSE 22.4%、THuman2(法線)で相対角度誤差53.5%の大幅な性能向上を達成し、従来の最先端技術を大きく上回った。