視覚言語モデルを用いたシンプルな長尾認識ベースライン

視覚世界は自然に開集合(open classes)の長尾分布を示しており、これにより現代の視覚システムには大きな課題が生じている。従来のアプローチは、クラスの再バランス戦略を採用するか、ネットワークモジュールを直接改善することでこの問題に対処してきた。しかし、これらは依然として事前に定義された有限のラベル集合に基づいてモデルを学習するため、監視情報の限界が生じ、未知のインスタンスへの転移能力が制限されるという課題を抱えている。近年の大規模な対照的視覚言語事前学習の進展により、視覚認識のための新たなアプローチが示唆されている。開集合(open-vocabulary)の監視情報を持つことで、事前学習された対照的視覚言語モデルは、データ不足や未観測の概念に対応可能な強力なマルチモーダル表現を学習することができる。視覚入力とテキスト入力の意味的類似度を計算することで、視覚認識は視覚言語マッチング問題に変換される。この知見に触発され、本研究では長尾認識に向けた対照的視覚言語モデルの活用を目的としたBALLADを提案する。まず、特定の長尾ターゲットデータセット上で対照学習を用いて視覚言語バックボーンの継続的学習を行う。その後、バックボーンを固定し、再サンプリング戦略によって構築されたバランスの取れた訓練サンプル上で、追加のアダプタ層を用いて末尾クラス(tail classes)の表現力を強化する。本手法は、3つの代表的な長尾認識ベンチマークにおいて広範な実験を通じて評価された。その結果、本手法はシンプルかつ効果的であり、既存の最先端手法を大きく上回る性能を達成し、新たなSOTA(state-of-the-art)を樹立した。コードは https://github.com/gaopengcuhk/BALLAD にて公開されている。