HyperAIHyperAI

Command Palette

Search for a command to run...

プログレッシブ自己蒸留を用いたロバストなクロスモーダル表現学習

Alex Andonian Shixing Chen Raffay Hamid

概要

CLIPの視覚言語アプローチにおける学習目的は、ウェブから収集された画像キャプションデータセットに見られるノイズの多い多対多の対応関係を十分に捉えておらず、これが計算およびデータ効率の低さを引き起こしている。この課題に対処するため、本研究では、プログレッシブな自己蒸留(self-distillation)とソフトな画像-テキストアライメントを用いた、新たなクロスモーダルコントラスティブ学習に基づく訓練フレームワークを提案する。本モデルは、各ミニバッチ内の画像およびキャプションのサブセットに対して、自身の知識を動的に抽出してソフトなアライメントターゲットを生成し、そのターゲットを用いてパラメータを更新する。14のベンチマークデータセットにおける広範な評価結果から、本手法は計算コストを増加させることなく、以下の複数の設定においてCLIPの対応手法を一貫して上回ることが示された:(a) ゼロショット分類、(b) ライナー・プローブ転移、(c) 画像-テキスト検索。さらに、ImageNetベースのロバストネス評価環境を用いた分析により、本手法はImageNetで事前学習されたモデルおよびCLIP自体と比較して、自然な分布シフトに対してより優れた有効なロバストネスを示すことが明らかになった。最後に、データサイズが2桁異なる範囲にわたるデータセットを用いた事前学習実験から、本手法によるCLIPに対する性能向上は、訓練例数の増加に伴いその効果が拡大する傾向にあることが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
プログレッシブ自己蒸留を用いたロバストなクロスモーダル表現学習 | 記事 | HyperAI超神経