2ヶ月前
外見を超えて:人間中心の視覚タスク向け意味制御可能な自己監督学習フレームワーク
Weihua Chen; Xianzhe Xu; Jian Jia; Hao luo; Yaohua Wang; Fan Wang; Rong Jin; Xiuyu Sun

要約
人間中心の視覚タスクは、その広範な応用により研究者の注目を集めています。本論文では、大量のラベルなしの人間画像から一般的な人間表現を学習し、下流の人間中心タスクに最大限の利益をもたらすことを目指しています。この方法をSOLIDER(Semantic cOntrollable seLf-supervIseD lEaRning framework)と呼びます。既存の自己監督学習手法とは異なり、SOLIDERでは人間画像からの事前知識を利用し、擬似意味ラベルを作成し、学習された表現にさらに多くの意味情報を導入します。また、異なる下流タスクには常に異なる割合の意味情報と外観情報が必要であることに注意しました。例えば、人間パーシングにはより多くの意味情報が必要ですが、人物再識別には識別の目的のためにより多くの外観情報が必要です。したがって、単一の学習済み表現ではすべての要件に対応することはできません。この問題を解決するために、SOLIDERは意味コントローラーを持つ条件付きネットワークを導入します。モデルが訓練された後、ユーザーはコントローラーに値を送信することで、異なる割合の意味情報を含む表現を生成でき、これにより下流タスクの異なるニーズに対応できます。最後に、SOLIDERは6つの下流の人間中心視覚タスクで検証されました。最新技術を上回り、これらのタスクに対する新しい基準を確立しています。コードは https://github.com/tinyvision/SOLIDER で公開されています。