HyperAIHyperAI

Command Palette

Search for a command to run...

CLIM:領域表現のための対照的言語・画像モザイク

Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy

概要

大規模またはオープンボキャブラリーからの物体を正確に検出するには、領域表現における視覚-言語の整合性(vision-language alignment)が不可欠である。しかし、テキストラベルや記述を伴う高品質なボックスアノテーションを取得することで、このような領域-テキストの整合性を学習することは、費用が高く、実用上困難である。一方で、画像-テキストペアの収集は比較的容易であるが、物体の正確な位置情報が欠落しているため、領域とテキストを正確に紐づけることが難しい。本論文では、大規模な画像-テキストペアを効果的に活用し、領域表現とテキスト表現の整合性を学習する新たなアプローチ、対照的視覚-言語モザイク(Contrastive Language-Image Mosaic, CLIM)を提案する。CLIMは複数の画像をモザイク化した画像を生成し、各画像を「仮想領域(pseudo region)」として扱う。各仮想領域の特徴量を抽出し、対照学習(contrastive loss)により、対応するテキスト埋め込みと類似するが、他のテキスト埋め込みとは異なるように学習させることで、高コストなボックスアノテーションを必要とせずに領域-テキストの整合性を学習可能となる。このアプローチは汎用性が高く、キャプション監視を利用するさまざまなオープンボキャブラリー物体検出手法において一貫して性能を向上させる。さらに、CLIMは視覚-言語モデルの領域表現を効果的に強化でき、結果としてより強力なバックボーンとしてオープンボキャブラリー物体検出器に貢献する。実験結果から、CLIMはOV-COCOおよびOV-LVISの両ベンチマークにおいて、さまざまなベースラインモデルの性能を大幅に向上させることを示した。コードは https://github.com/wusize/CLIM にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CLIM:領域表現のための対照的言語・画像モザイク | 記事 | HyperAI超神経