8日前

VLTinT：一貫性のあるビデオパラグラフキャプションのための視覚言語トランスフォーマー・イン・トランスフォーマー

Kashu Yamazaki, Khoa Vo, Sang Truong, Bhiksha Raj, Ngan Le

要約

ビデオパラグラフキャプショニングは、時間的に連続しないビデオに対して、複数の時間的イベント位置を含む一貫した物語形式の複数文による記述を生成することを目的としています。人間の知覚プロセスに倣い、視覚（例：人間、動物）と非視覚的要素（例：行動、関係）に分解することでシーンを効果的に理解し、視覚と言語が相互に影響し合う状況を考慮して、本研究では初めて視覚-言語（Visual-Linguistic, VL）特徴を提案します。提案するVL特徴では、シーンを以下の3つのモダリティでモデル化しています：(i) グローバルな視覚的環境、(ii) ローカルな視覚的主体（主なエージェント）、(iii) 言語的シーン要素。次に、ビデオ内のイベント内およびイベント間の内容における意味的整合性を同時に捉えるため、自己回帰型のTransformer-in-Transformer（TinT）を導入します。さらに、学習された埋め込み特徴がキャプションの意味と一致するように保証するため、新たなVL対照損失関数を提示します。ActivityNet CaptionsおよびYouCookIIデータセットにおける包括的な実験と広範なアブレーションスタディの結果、提案手法であるVisual-Linguistic Transformer-in-Transformer（VLTinT）は、精度および多様性の両面で従来の最先端手法を上回ることを示しました。ソースコードは公開されており、以下のURLから入手可能です：https://github.com/UARK-AICV/VLTinT。