17日前

SILC：自己蒸留を用いた視覚言語事前学習の改善

Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari

要約

ウェブスケールの画像キャプションデータセットにおける画像・テキスト事前学習は、CLIPおよびその派生モデルの成功により、オープンボリューム分類および検索モデルの標準的な手法として定着している。いくつかの研究では、CLIPの特徴量を密度予測タスクに活用し、オープンセット学習能力の出現を示している。しかし、これらのモデルが採用する対照的学習目的は、画像とテキストの対応付けにのみ焦点を当てており、密度予測タスクにおける画像特徴の学習を促進する設計にはなっていない。本研究では、視覚言語事前学習のための新規フレームワークSILCを提案する。SILCは、自己蒸留（self-distillation）によって局所から全体への対応関係学習を単純に追加することで、画像・テキスト対照的学習を強化する。実験の結果、指数移動平均（EMA）教師モデルから得られる局所画像特徴を蒸留することで、物体検出やセグメンテーションといった密度予測タスクにおけるモデル性能が著しく向上することが示された。さらに、分類や検索といった画像レベルタスクにおいても性能向上が確認された。SILCモデルは、ゼロショット分類、フェイショット分類、画像・テキスト検索、ゼロショットセグメンテーション、オープンボリュームセグメンテーションにおいて、新たな最良性能（SOTA）を達成した。さらに、SILC特徴量がオープンボリューム検出、キャプション生成、視覚的質問応答（VQA）の各タスクにおいても顕著な利点をもたらすことを示した。