
要約
ユーザーの意図を反映した画像キャプション生成は、近年注目される新たな要件となっている。最近公開された「Localized Narratives」データセットは、画像キャプションタスクにマウスの動き(trace)を追加の入力として採用しており、画像内のどの部分を記述するかを直感的かつ効率的に制御する手段として有効である。しかし、これらのトレースをどのように効果的に活用して生成品質と制御性を向上させるかについては、まだ十分に検討されていない。本研究では、対照学習(Contrastive constraints)と注意制御(Attention Guidance)をループ構造で連携させる新たなモデル「LoopCAG」を提案することで、この課題に取り組む。このモデルは、生成プロセスに明示的な空間的・時系列的制約を組み込むことで、視覚情報、言語情報、トレースの三つのモダリティ間の対応関係をより適切に学習する。具体的には、各生成された文が対応するトレースシーケンスと時系列的に整合するように、対照学習戦略を用いる。さらに、ヒューリスティックな空間的注意誘導に基づき、各生成トークンが正しい視覚的オブジェクトに注目するように監督する。包括的な実験結果から、LoopCAGモデルが三モダリティ間の対応関係をより良く学習し、トレース制御型画像キャプションタスクにおいてSOTA(最先端)の性能を達成することが示された。また、生成プロセス中の空間的・時系列的感度を分析することで、LoopCAGの制御性と説明可能性の有効性も実証された。