2ヶ月前

対照的な視覚言語モデルにおける知覚的グループ化

Kanchana Ranasinghe; Brandon McKinzie; Sachin Ravi; Yinfei Yang; Alexander Toshev; Jonathon Shlens

要約

最近のゼロショット画像認識における進展は、ビジョン言語モデルが自然言語フレーズで任意に調査できる、高い意味情報を含む一般的な視覚表現を学習することを示唆しています。しかし、画像の理解は単に画像内にどのようなコンテンツが存在するかを理解することだけでなく、重要なのはそのコンテンツがどこにあるのかを理解することです。本研究では、ビジョン言語モデルがどの程度オブジェクトが画像内のどこに存在するかを理解し、視覚的に関連する部分をグループ化できるかを検討します。我々は、コントラスティブ損失と大規模なウェブベースのデータに基づく現代的なビジョンおよび言語表現学習モデルが限られたオブジェクト位置情報のみを捉えることを示します。この問題に対処するために、意味情報と空間情報を両方学習するための最小限の修正セットを提案します。これらの性能は、ゼロショット画像認識、無教師底上げ・上下げ意味分割（unsupervised bottom-up and top-down semantic segmentations）、ならびに堅牢性分析によって測定されます。結果として得られたモデルは無教師分割において最先端の成果を達成しており、学習された表現が因果関係を探るためのデータセットでの不純な相関に対して特異的に堅牢であることを実証しています。