
要約
本論文では、オープンドメインのビデオに対する抽象的要約生成について研究しています。従来のテキストニュース要約とは異なり、目的はテキスト情報を「圧縮」することよりも、異なるソースモダリティから収集・融合された情報を流暢な文章で要約することにあります。本研究では、階層的注意機構を備えたマルチソースシーケンス・ツー・シーケンスモデルがどのように異なるモダリティからの情報を一貫性のある出力に統合するかを示し、異なるモダリティで訓練された各種モデルを比較し、教育ビデオのコーパスであるHow2での試験実験結果を提示します。また、ROUGEやBLEUなどの指標が要約の流暢さを測定する一方で、意味的な適切性を測定する新しい評価指標(Content F1)も提案しています。