ユニコム:画像検索のための普遍的かつコンパクトな表現学習

現代の画像検索手法は、通常、事前学習済みエンコーダーを微調整して画像レベルの記述子を抽出することに依存しています。しかし、最も広く使用されているモデルは、クラス数が限定的なImageNet-1Kで事前学習されています。したがって、事前学習された特徴表現は十分に普遍的ではなく、多様なオープンワールドクラスへの汎化性能が低いという問題があります。本論文では、まずCLIPモデルによって抽出されたテキストと視覚的な特徴を基に、大規模なLAION400Mデータセットを100万の疑似クラスにクラスタリングします。ラベルの粒度の混乱により、自動的にクラスタリングされたデータセットには必然的に多くのクラス間の競合が含まれてしまいます。このような競合を軽減するために、クラス間プロトタイプの中から部分的にランダムに選択し、マージンベースのソフトマックス損失を構築します。さらに低次元特徴表現を強化するためには、埋め込みとクラスごとのプロトタイプ間の類似性を計算する際に、特徴次元も部分的にランダムに選択します。この二重のランダム部分選択は、プロトタイプ行列のクラス次元と特徴次元に対して行われることで、分類における競合に対する耐性と特徴埋め込みのコンパクトさを実現します。我々の手法は複数のベンチマークにおいて最新の非教師ありおよび教師あり画像検索アプローチよりも大幅に優れた性能を示しました。コードと事前学習済みモデルは将来の研究を促進するために公開されています (https://github.com/deepglint/unicom)。注:「粒度」(granularity)という言葉は一般的には使われませんが、「ラベルの粒度」(label granularity)という文脈では意味が通じます。ただし、「ラベル精度」や「ラベル詳細度」といった表現も考えられますので、状況に応じて適切な用語を使用してください。