17日前

CoLLM:構成画像検索向け大規模言語モデル

Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
CoLLM:構成画像検索向け大規模言語モデル
要約

コンポーズド画像検索(Composed Image Retrieval: CIR)は、マルチモーダルなクエリに基づいて画像を検索する複雑なタスクである。従来の学習データは、参照画像、希望する変更内容を記述したテキスト、およびターゲット画像からなるトリプレットで構成されるが、これらを収集するには費用と時間がかかり、実用的に限界がある。CIRデータセットの不足から、合成されたトリプレットを用いるゼロショットアプローチや、広く利用可能なウェブクロール画像-キャプションペアを活用した視覚言語モデル(Vision-Language Models: VLMs)の利用が行われている。しかし、これらの手法には重大な限界がある。合成トリプレットはスケールが限定的で、多様性に欠け、自然な変更テキストが生成されないことが問題である。一方、画像-キャプションペアは、トリプレットデータが存在しないため、マルチモーダルクエリの共同埋め込み学習を阻害する。さらに、視覚と言語モダリティの高度な融合と理解を要する複雑でニュアンスのある変更テキストに対応できず、既存のアプローチは困難を抱えている。本研究では、これらの課題を包括的に解決する一貫したフレームワーク「CoLLM」を提案する。本手法は、画像-キャプションペアからリアルタイムにトリプレットを生成し、手動のアノテーションなしで教師あり学習を可能にする。さらに、大規模言語モデル(Large Language Models: LLMs)を活用して、参照画像と変更テキストの共同埋め込みを生成することで、より深いマルチモーダル融合を実現する。また、340万サンプルを含む大規模データセット「Multi-Text CIR(MTCIR)」を構築し、既存のCIRベンチマーク(CIRRおよびFashion-IQ)を精緻化することで、評価の信頼性を向上させた。実験結果から、CoLLMは複数のCIRベンチマークおよび設定において、最先端の性能を達成した。MTCIRを用いた実験では、最大15%の性能向上が得られ、既存のベンチマークの改良により、CIRモデルの評価により信頼性の高い指標が提供された。本研究は、この重要な分野の発展に貢献するものである。