
オープンボリューム認識の課題は、モデルが適用される新たなカテゴリについて何の手がかりも持たない点にあります。既存の研究では、カテゴリの手がかりをモデルに組み込むためのさまざまな手法が提案されています。たとえば、少サンプルファインチューニングを用いる方法や、視覚言語モデルにカテゴリ名やテキスト記述を提供する方法などが挙げられます。しかし、ファインチューニングは計算コストが高く、モデルの汎化能力を低下させる傾向があります。また、テキスト記述は曖昧になりやすく、視覚的な詳細を正確に表現できない場合もあります。本論文では、テキスト記述と例示画像から構成されるマルチモーダルな手がかりに着目し、異なる視点からオープンボリューム認識に取り組みます。提案手法であるOVMR(Open-Vocabulary Multi-modal Recognition)は、より強固なカテゴリ手がかりの埋め込みを実現するための2つの革新的な構成要素を採用しています。まず、画像の例示(exemplar images)を動的にテキスト記述に補完することで、マルチモーダルな分類器を生成します。次に、単モーダル分類器とマルチモーダル分類器を統合するための「好みに基づく精緻化モジュール」を適用し、低品質な例示画像やテキスト記述による問題を軽減することを目的とします。OVMRはプラグアンドプレイ型のモジュールであり、インターネットからランダムに収集された例示画像と併用しても良好な性能を発揮します。広範な実験により、OVMRの優れた性能が示され、さまざまなシナリオや設定において既存手法を上回ることが確認されています。コードは公開されており、以下のURLから入手可能です:\href{https://github.com/Zehong-Ma/OVMR}{https://github.com/Zehong-Ma/OVMR}。