17日前
CLIPリワードを用いた細粒度画像キャプション生成
Jaemin Cho, Seunghyun Yoon, Ajinkya Kale, Franck Dernoncourt, Trung Bui, Mohit Bansal

要約
現代の画像キャプション生成モデルは、通常、テキスト類似性を目的関数として学習される。しかし、公開データセットに含まれる参照キャプションは、一般的に顕著な共通オブジェクトを記述するため、テキスト類似性を目的関数として学習したモデルは、画像同士を区別する上で重要な詳細な特徴を無視しがちである。より記述的で特徴的なキャプション生成を実現するため、本研究では、ウェブ上の大規模な画像-テキストペアで学習されたマルチモーダルエンコーダーであるCLIPを活用し、マルチモーダル類似性を計算して報酬関数として用いる手法を提案する。さらに、追加のテキストラベルを必要とせずに文法的な品質を向上させるための、CLIPテキストエンコーダーに対するシンプルなファインチューニング戦略も提案する。これにより、報酬計算において参照キャプションの使用が完全に不要となる。記述的なキャプションを包括的に評価するため、全体、背景、オブジェクト、関係性の細かい評価基準を備えた新しい評価データセットFineCapEvalを導入する。テキストから画像への検索およびFineCapEvalにおける実験結果から、提案手法であるCLIPガイド付きモデルは、CIDEr最適化モデルよりもより特徴的なキャプションを生成することが示された。また、CLIPテキストエンコーダーに対する無教師な文法ファインチューニングが、単純なCLIP報酬による性能劣化問題を緩和することも確認した。最後に、人間による評価分析では、複数の評価基準に基づいて、アノテーターがCLIP報酬をCIDErおよびMLE目的関数よりも強く好む結果が得られた。コードとデータ:https://github.com/j-min/CLIP-Caption-Reward