要約
近年、画像キャプション生成分野では顕著な進展が見られている。一方で、動画の記述生成はまだ初期段階にあり、画像と比べて動画の持つ複雑性がその理由である。動画に対して段落単位の記述を生成することは、さらに困難な課題である。主な課題として、時間的なオブジェクト依存関係や複雑なオブジェクト間関係が挙げられる。最近では、複数文からなる動画記述の生成に関する多くの研究が提案されている。これらの多くは、2段階アプローチに依拠している:1)イベント提案、2)キャプション生成。これらの手法は良好な結果を達成しているものの、グローバルに利用可能な情報を捉え損なっているという課題がある。本研究では、動画キャプション生成時にグローバルなオブジェクト提案を活用する手法を提案する。ActivityNetデータセットを用いた実験結果から、グローバルなオブジェクト提案の導入が、より情報量豊かで正確なキャプションを生成可能であることが示された。さらに、生成器のオブジェクト検出能力を評価するための3つのスコアを提案した。本手法によって生成されたキャプションと最先端技術との定性的比較により、提案手法の有効性が確認された。