17日前

事前学習済みオブジェクト検出器を越えて：画像キャプション生成におけるクロスモーダルなテキストおよび視覚的文脈

Chia-Wen Kuo, Zsolt Kira

要約

視覚的キャプション生成において大きな進展が見られ、その多くは事前学習された特徴量と、その後固定されたオブジェクト検出器に依存しており、これらが自己回帰モデルへの豊富な入力として機能している。しかし、こうした手法の主要な制約は、モデルの出力がオブジェクト検出器の出力にのみ依存している点にある。このような出力がすべての必要情報を表現できるという仮定は、検出器が異なるデータセット間で移行される場合に特に現実的ではない。本研究では、この仮定によって導かれるグラフィカルモデルについて検討し、オブジェクト間の関係性など、欠落している情報を表現するための補助入力を導入することを提案する。具体的には、Visual Genomeデータセットから属性および関係性を抽出し、キャプション生成モデルをそれらに条件づける手法を提案する。特に、文脈的な記述を検索するためにマルチモーダル事前学習モデル（CLIP）を用いることの重要性を指摘し、実証的に示している。さらに、オブジェクト検出モデルは固定されており、キャプション生成モデルがそれらを適切に位置づけるのに十分な情報量を提供できない。そこで、検出結果および記述出力の両方を画像に条件づける新たなアプローチを提案し、定性的かつ定量的に、このアプローチが位置づけ（ grounding ）の精度を向上させることを示した。本手法は画像キャプションタスクにおいて検証され、各構成要素および事前学習されたマルチモーダルモデルの重要性について包括的な分析が行われ、現在の最先端技術と比較して顕著な性能向上が示された。具体的には、CIDErスコアで+7.5%、BLEU-4スコアで+1.3%の改善が達成された。