2ヶ月前

PLIP: 言語-画像事前学習による個人表現学習

Jialong Zuo; Jiahao Hong; Feng Zhang; Changqian Yu; Hanyu Zhou; Changxin Gao; Nong Sang; Jingdong Wang

要約

言語-画像事前学習は、一般的な領域における強力な表現を学習する効果的な手法です。しかし、人物表現学習に直接適用すると、これらの一般的な事前学習方法は満足のいく性能を発揮しません。その理由は、細かい属性や同一性などの重要な人物関連特性が無視されているためです。この問題に対処するために、私たちは人物表現学習用の新しい言語-画像事前学習フレームワークであるPLIP（Person Language-Image Pre-training）を提案します。具体的には、以下の3つの前置タスクを慎重に設計しました：1) テキストガイドによる画像着色 (Text-guided Image Colorization)：人物関連の画像領域と細かい色彩部品のテキストフレーズとの対応関係を確立することを目指します。2) 画像ガイドによる属性予測 (Image-guided Attributes Prediction)：画像中の人物体の細かい属性情報を抽出することを目指します；3) 同一性に基づく視覚-言語コントラスト (Identity-based Vision-Language Contrast)：インスタンスレベルではなく同一性レベルでクロスモーダル表現を相関させることを目指します。さらに、当該事前学習フレームワークを実装するために、自動的にテキスト注釈を生成して大規模な人物データセットSYNTH-PEDES（Synthetic Person Description Dataset）を作成しました。私たちはSYNTH-PEDES上でPLIPの事前学習を行い、下流の人物中心タスクにおいてモデルの評価を行いました。PLIPはこれらのすべてのタスクで既存手法よりも大幅に性能を向上させるだけでなく、ゼロショット設定やドメイン一般化設定でも優れた能力を示しています。コード、データセットおよび重みは~\url{https://github.com/Zplusdragon/PLIP} で公開されます。