HyperAIHyperAI

Command Palette

Search for a command to run...

対照的な視覚言語モデルにおける知覚的グループ化

Kanchana Ranasinghe* Brandon McKinzie Sachin Ravi Yinfei Yang Alexander Toshev Jonathon Shlens†

概要

最近のゼロショット画像認識における進展は、ビジョン言語モデルが自然言語フレーズで任意に調査できる、高い意味情報を含む一般的な視覚表現を学習することを示唆しています。しかし、画像の理解は単に画像内にどのようなコンテンツが存在するかを理解することだけでなく、重要なのはそのコンテンツがどこにあるのかを理解することです。本研究では、ビジョン言語モデルがどの程度オブジェクトが画像内のどこに存在するかを理解し、視覚的に関連する部分をグループ化できるかを検討します。我々は、コントラスティブ損失と大規模なウェブベースのデータに基づく現代的なビジョンおよび言語表現学習モデルが限られたオブジェクト位置情報のみを捉えることを示します。この問題に対処するために、意味情報と空間情報を両方学習するための最小限の修正セットを提案します。これらの性能は、ゼロショット画像認識、無教師底上げ・上下げ意味分割(unsupervised bottom-up and top-down semantic segmentations)、ならびに堅牢性分析によって測定されます。結果として得られたモデルは無教師分割において最先端の成果を達成しており、学習された表現が因果関係を探るためのデータセットでの不純な相関に対して特異的に堅牢であることを実証しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています