11日前

単一の強みを超えて：汎用視覚言語モデル向けのカスタマイズ型アンサンブル

Zhihe Lu, Jiawang Bai, Xin Li, Zeyu Xiao, Xinchao Wang

要約

事前学習された視覚言語モデル（VLM）を、例えばCLIPのようにオープンワールドにおける汎化性能に合わせて微調整する手法は、実用的価値の高さから注目を集めている。しかし、単一のモデルに限って高度なアルゴリズム設計に依存する場合、性能の向上には限界がある。たとえ強力な性能を示すモデル（例：CLIP-ViT-B/16）であっても同様である。本研究では、初めて、弱い性能を持つ多数のVLMを活用して、堅牢な単一モデルの汎化性能を向上させる可能性に着目した。得られた肯定的な結果を受けて、我々はVLMの汎化問題に新たな視点——事前学習済みVLMのアンサンブル——からアプローチすることを提案する。本研究では、それぞれ異なる状況に適した3つのカスタマイズされたアンサンブル戦略を導入する。まず、事前学習済みVLMのみが利用可能な状況を想定し、ゼロショットアンサンブルを提案。これは、各モデルの信頼度に基づいて自動的にロジットを調整する手法である。さらに、追加の少数のショットサンプルが利用可能な状況では、計算リソースの可用性に応じて柔軟に運用可能な「トレーニング不要・チューニング不要のアンサンブル」を提案する。これらのアンサンブル戦略は、ゼロショット、ベースから新しいクラスへの汎化、およびデータセット間の汎化という3つの設定において評価され、いずれも新たなSOTA（最良の結果）を達成した。特に本研究は、アンサンブルによるVLMの汎化性能向上という分野における初期の重要な一歩である。コードは以下のURLから公開されている：https://github.com/zhiheLu/Ensemble_VLM.git。