HyperAIHyperAI

Command Palette

Search for a command to run...

PLIP: 言語-画像事前学習による個人表現学習

Jialong Zuo Jiahao Hong Feng Zhang Changqian Yu Hanyu Zhou Changxin Gao Nong Sang Jingdong Wang

概要

言語-画像事前学習は、一般的な領域における強力な表現を学習する効果的な手法です。しかし、人物表現学習に直接適用すると、これらの一般的な事前学習方法は満足のいく性能を発揮しません。その理由は、細かい属性や同一性などの重要な人物関連特性が無視されているためです。この問題に対処するために、私たちは人物表現学習用の新しい言語-画像事前学習フレームワークであるPLIP(Person Language-Image Pre-training)を提案します。具体的には、以下の3つの前置タスクを慎重に設計しました:1) テキストガイドによる画像着色 (Text-guided Image Colorization):人物関連の画像領域と細かい色彩部品のテキストフレーズとの対応関係を確立することを目指します。2) 画像ガイドによる属性予測 (Image-guided Attributes Prediction):画像中の人物体の細かい属性情報を抽出することを目指します;3) 同一性に基づく視覚-言語コントラスト (Identity-based Vision-Language Contrast):インスタンスレベルではなく同一性レベルでクロスモーダル表現を相関させることを目指します。さらに、当該事前学習フレームワークを実装するために、自動的にテキスト注釈を生成して大規模な人物データセットSYNTH-PEDES(Synthetic Person Description Dataset)を作成しました。私たちはSYNTH-PEDES上でPLIPの事前学習を行い、下流の人物中心タスクにおいてモデルの評価を行いました。PLIPはこれらのすべてのタスクで既存手法よりも大幅に性能を向上させるだけでなく、ゼロショット設定やドメイン一般化設定でも優れた能力を示しています。コード、データセットおよび重みは~\url{https://github.com/Zplusdragon/PLIP} で公開されます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています