18日前

VinVL+L:VQAにおける位置コンテキストを活用した視覚表現の拡張

{Lukáš Picek, Jiří Vyskočil}
VinVL+L:VQAにおける位置コンテキストを活用した視覚表現の拡張
要約

本論文では、最先端の視覚言語(VL)モデルであるVinVLの視覚表現(すなわち、物体タグおよび領域特徴)に位置情報(Location information)を追加する新たな手法、VinVL+Lを提案する。このようなメタデータがVLモデルにおいて果たす重要性を検証するため、本研究では以下の3段階のアプローチを実施した。(i) Places365データセット上でSwin-Bモデルを訓練し、新たな視覚特徴およびタグ特徴のセットを取得。これらの特徴セットは再現性およびさらなる実験を促進するため、公開した。(ii) 既存のVinVLアーキテクチャに新しい特徴セットを統合するための構造的更新を実施。(iii) 定性的および定量的な評価を実施した。単一の2値位置メタデータを導入するだけで、VinVL+LはVQA(視覚質問応答)タスクにおいて最先端のVinVLモデルに対して継続的な性能向上を達成した。GQAデータセットにおける精度は64.85%に達し、精度面で+0.32%の向上を示した。新特徴の統計的有意性は、近似ランダム化(Approximate Randomization)を用いて検証された。 本研究で生成したコードおよび新たな特徴セットは、https://github.com/vyskocj/VinVL-L にて公開されている。