HyperAIHyperAI

Command Palette

Search for a command to run...

RegionCLIP:領域ベースの言語-画像事前学習

概要

対照的言語・画像事前学習(CLIP)は、画像・テキストペアを用いて、ゼロショットおよび転移学習の設定において、画像分類タスクで顕著な成果を上げている。しかしながら、本研究では、このようなモデルを物体検出における画像領域の認識に直接適用すると、ドメインのズレ(domain shift)のため、性能が著しく低下することを示す。具体的には、CLIPは画像全体をテキスト記述と一致させるように学習されているが、画像領域とテキスト部分(テキストスパン)の細粒度な対応関係を捉えていないためである。この問題を緩和するため、我々は新たな手法であるRegionCLIPを提案する。RegionCLIPは、CLIPの能力を大幅に拡張し、画像領域レベルの視覚表現を学習可能にすることで、画像領域とテキスト概念の細粒度な対応を実現する。本手法では、CLIPモデルを用いて画像領域とテンプレートキャプションをマッチングさせ、その後、その領域・テキストペアを特徴空間内で一致させるように事前学習を行う。この事前学習モデルをオープンボリューム物体検出タスクに転移した場合、COCOおよびLVISデータセットにおいて、それぞれ新規カテゴリに対して3.8 AP50および2.2 APの大幅な性能向上を達成し、最先端手法を大きく上回った。さらに、学習された領域表現はゼロショット推論に対応可能であり、COCOおよびLVISデータセットの両方で有望な結果を示した。本研究のコードは、https://github.com/microsoft/RegionCLIP にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています