8ヶ月前

概要

コントラスティブ言語画像事前学習（CLIP）は、画像とテキストのコントラスティブ学習によって得られる優れた特徴表現により、最近さまざまなタスクで成功を収めています。しかし、CLIPが使用するインスタンス識別方法では、訓練データの意味構造をほとんどエンコードできません。この制限に対処するために、反復的なクラスタ割り当てと分類を通じてクラスタ識別が提案されています。しかしながら、ほとんどのクラスタ識別アプローチは各画像に対して単一の疑似ラベルのみを定義しており、画像内のマルチラベル信号を見落としています。本論文では、表現学習を強化するための新しいマルチラベルクラスタ識別方法であるMLCD（Multi-Label Cluster Discrimination）を提案します。クラスタリングステップでは、既製の埋め込み特徴を使用して大規模なLAION-400Mデータセットを100万の中心にクラスタリングします。自然画像にはしばしば複数の視覚的オブジェクトや属性が含まれていることを考慮し、最も近い複数の中核を選択して補助クラスラベルとします。識別ステップでは、ポジティブクラスとネガティブクラスからの損失を上品に分離し、決定境界の曖昧さを軽減する新しいマルチラベル分類損失を設計しました。異なるモデルサイズと事前学習データセットを使用した実験で提案手法の有効性を検証しています。実験結果は、線形プロービング、ゼロショット分類、および画像-テキスト検索などの複数の下流タスクにおいて当手法が最先端の性能を達成していることを示しています。コードとモデルはhttps://github.com/deepglint/unicom で公開されています。

ソースPDF