7日前

VLCap：コントラスト学習を用いた視覚言語モデルによる一貫性のあるビデオパラグラフキャプション生成

Kashu Yamazaki, Sang Truong, Khoa Vo, Michael Kidd, Chase Rainwater, Khoa Luu, Ngan Le

要約

本稿では、視覚と言語の相互作用を含む人間の知覚プロセスを活用し、トリムされていない動画に対して一貫性のある段落レベルの記述を生成する手法を提案する。我々は、二つのモダリティから構成される視覚言語（VL）特徴を提案する。すなわち、(i) 全体シーンのグローバルな視覚的コンテンツを捉える視覚モダリティと、(ii) 人間および非人間の物体（例：動物、車両など）のシーン要素の記述、および視覚的・非視覚的要素（例：関係性、行動など）を抽出する言語モダリティである。さらに、提案するVLCapモデルを、対照的学習に基づくVL損失関数を用いて学習することを提案する。ActivityNet CaptionsおよびYouCookIIデータセットにおける実験およびアブレーションスタディの結果、本手法は既存の最先端（SOTA）手法と比較して、精度および多様性の両面で優れた性能を発揮することが示された。