Command Palette
Search for a command to run...
MAST: 多モーダル抽象要約と三モーダル階層的注意
MAST: 多モーダル抽象要約と三モーダル階層的注意
Aman Khullar; Udit Arora
概要
本論文では、マルチモーダル抽象的要約(Multimodal Abstractive Text Summarization)の新しいモデルであるMASTを紹介します。このモデルは、テキスト、音声、ビデオの3つのモーダリティから情報を抽出して利用します。これまでのマルチモーダル抽象的要約に関する研究では、主にテキストとビデオの2つのモーダリティからのみ情報が利用されていました。本研究では、音声モーダリティから情報を抽出する有用性と課題について検討し、これらの課題を克服するために、モデルがテキストモーダリティにより多くの注意を払うことを可能にするシーケンス・ツー・シーケンスの三模態階層的アテンションベースモデルを提案します。MASTは、How2データセットにおけるマルチモーダル言語理解タスクにおいて、現行の最先端モデル(ビデオ-テキスト)よりもコンテンツF1スコアで2.51ポイント、Rouge-Lスコアで1.00ポイント高い性能を示しています。