16日前
シンプルなトークンレベルの信頼度がキャプションの正確性を向上させる
Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach

要約
画像に対するキャプションが正しく記述されているかどうかを判断する能力は、視覚言語理解において重要な要素である。しかし、最先端のモデルは細部にわたる正確性を誤解しやすく、生成されたキャプションに存在しないオブジェクトを「幻覚」する、あるいは構成的推論が不十分になるといった誤りを引き起こすことがある。本研究では、単語レベルの信頼度(Token-Level Confidence、以下TLC)という、シンプルでありながら驚くほど効果的な手法を用いて、キャプションの正確性を評価することを検討する。具体的には、画像キャプションタスクで微調整された視覚言語モデルに画像と提案されたキャプションを入力し、単語または語列ごとの代数的または学習されたトークン信頼度を統合することで、画像とキャプションの整合性を推定する。事前学習済みモデルによるシーケンスレベルのスコアと比較して、代数的信頼度を用いたTLCは、SVO-Probesにおける動詞理解において10%の相対的精度向上を達成し、Winogroundにおける構成的推論の画像スコアとグループスコアでは、それぞれ37%および9%の相対的向上を示した。訓練データが利用可能な場合、学習された信頼度推定器を用いることでさらなる性能向上が得られ、MS COCO Captionsにおけるオブジェクトの幻覚率を元のモデルと比較して30%の相対的低下に抑えるとともに、新たな最先端性能を達成した。