7日前
知識グラフ拡張トランスフォーマーを用いたテキストによる動画キャプション生成
Xin Gu, Guang Chen, Yufei Wang, Libo Zhang, Tiejian Luo, Longyin Wen

要約
動画キャプション生成は、自然言語を用いて動画の内容を記述することを目的としています。近年、大きな進展が見られましたが、現実世界への応用においては依然として性能向上の余地が大きく、その主な要因として「長尾語」問題が挙げられます。本論文では、知識グラフを活用したテキスト拡張型トランスフォーマー(TextKG)を提案します。TextKGは、外部ストリームと内部ストリームから構成される二重ストリーム型トランスフォーマーです。外部ストリームは、追加的な知識(例えば、事前に構築された知識グラフ)を吸収するための設計となっており、これらの追加知識と動画内の内生情報(例えば、顕著な物体領域、音声トランスクリプト、動画キャプション)との相互作用をモデル化することで、長尾語の課題を緩和することを目的としています。一方、内部ストリームは、動画に含まれるマルチモーダル情報(例えば、動画フレームの外観、音声トランスクリプト、キャプション)を活用し、生成キャプションの品質を確保することを目的としています。さらに、両ストリーム間にはクロスアテンション機構を導入し、情報の共有を実現しています。この構造により、二つのストリームが互いに補完し合い、より高精度な結果を達成することが可能になります。本研究では、YouCookII、ActivityNet Captions、MSRVTT、MSVDの4つの難易度の高い動画キャプションデータセットを用いて広範な実験を実施した結果、提案手法は最先端手法と比較しても優れた性能を示しました。特に、YouCookIIデータセットにおいて、既存の最高性能を上回る18.7%の絶対値向上(CIDErスコア)を達成しました。