6ヶ月前

概要

動画キャプション生成において、文法的にも意味的にも正しいキャプションを生成することは、困難な課題である。従来の手法によって生成されるキャプションは、文法構造と一致しない単語単位の出力であるか、入力動画から重要な情報を漏らす傾向がある。このような問題に対処するため、本研究では新たなグローバル・ローカル統合ネットワークを提案する。このネットワークは、グローバル・ローカル統合ブロック（GLFB）を用いて、品詞（POS）成分の異なる部分からの特徴を視覚的・空間的特徴と統合・符号化する。さらに、POSブロックの教師信号として、新たな組み合わせとして「冠詞＋主語」、「助動詞」、「動詞」、「冠詞＋目的語」をそれぞれ「Det + Subject」、「Aux Verb」、「Verb」、「Det + Object」として採用した。この新規のグローバル・ローカル統合ネットワークとPOSブロックの組み合わせにより、視覚的特徴と言語的記述の整合性が向上し、文法的にも意味的にも正しいキャプションの生成が可能となる。標準ベンチマークデータセットであるMSVDおよびMSRVTTにおける広範な定性的・定量的実験の結果、提案手法は従来手法と比較してより文法的・意味的に正確なキャプションを生成し、新たな最先端性能（state-of-the-art）を達成した。POSブロックおよびGLFBのアブレーション実験により、提案手法における各構成要素の貢献度が明確に示された。

ソースPDF