HyperAIHyperAI

Command Palette

Search for a command to run...

多ラベルクラスターディスクリミネーションによる視覚表現学習

Xiang An; Kaicheng Yang; Xiangzi Dai; Ziyong Feng; Jiankang Deng

概要

コントラスティブ言語画像事前学習(CLIP)は、画像とテキストのコントラスティブ学習によって得られる優れた特徴表現により、最近さまざまなタスクで成功を収めています。しかし、CLIPが使用するインスタンス識別方法では、訓練データの意味構造をほとんどエンコードできません。この制限に対処するために、反復的なクラスタ割り当てと分類を通じてクラスタ識別が提案されています。しかしながら、ほとんどのクラスタ識別アプローチは各画像に対して単一の疑似ラベルのみを定義しており、画像内のマルチラベル信号を見落としています。本論文では、表現学習を強化するための新しいマルチラベルクラスタ識別方法であるMLCD(Multi-Label Cluster Discrimination)を提案します。クラスタリングステップでは、既製の埋め込み特徴を使用して大規模なLAION-400Mデータセットを100万の中心にクラスタリングします。自然画像にはしばしば複数の視覚的オブジェクトや属性が含まれていることを考慮し、最も近い複数の中核を選択して補助クラスラベルとします。識別ステップでは、ポジティブクラスとネガティブクラスからの損失を上品に分離し、決定境界の曖昧さを軽減する新しいマルチラベル分類損失を設計しました。異なるモデルサイズと事前学習データセットを使用した実験で提案手法の有効性を検証しています。実験結果は、線形プロービング、ゼロショット分類、および画像-テキスト検索などの複数の下流タスクにおいて当手法が最先端の性能を達成していることを示しています。コードとモデルはhttps://github.com/deepglint/unicom で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています