HyperAIHyperAI

Command Palette

Search for a command to run...

カスタマイズされた視覚モデルの学習と検索強化型知識

Haotian Liu; Kilho Son; Jianwei Yang; Ce Liu; Jianfeng Gao; Yong Jae Lee; Chunyuan Li

概要

画像とテキストの対比学習モデル(例えばCLIP)は、強力なタスク転移能力を示しています。これらの視覚モデルの高い汎用性と利用可能性は、広範な概念カバーを確保するためのウェブスケールでのデータ収集プロセスに続いて、高コストの事前学習によって達成されています。これに対して、我々はREACT(REtrieval-Augmented CusTomization)というフレームワークを提案します。このフレームワークは、標的ドメイン向けのカスタマイズされた視覚モデルを構築するために、関連するウェブ知識を取得することを目指しています。我々はウェブスケールのデータベースから最も関連性の高い画像-テキストペア(CLIPの事前学習データの約3%)を外部知識として検索し、元の重みを凍結したまま新しいモジュール化されたブロックのみを学習することでモデルをカスタマイズすることを提案します。REACTの有効性は、分類、検索、検出、セグメンテーションなどのタスクにおける包括的な実験を通じて示されており、ゼロショット設定や少ショット設定、フルショット設定も含めています。特にゼロショット分類タスクにおいては、CLIPと比較してImageNetで最大5.4%、ELEVATERベンチマーク(20つのデータセット)で3.7%の改善が見られています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています