2ヶ月前

アラインとアテンド:双方向コントラスティブ損失を用いたマルチモーダル要約

Bo He; Jun Wang; Jielin Qiu; Trung Bui; Abhinav Shrivastava; Zhaowen Wang
アラインとアテンド:双方向コントラスティブ損失を用いたマルチモーダル要約
要約

多モーダル要約の目的は、異なるモーダリティから最も重要な情報を抽出し、出力要約を形成することである。単一モーダル要約とは異なり、多モーダル要約タスクでは、クロスモーダル情報が明示的に活用され、より信頼性が高く、品質の良い要約を生成するのに役立つ。しかし、既存の手法は異なるモーダリティ間の時間的対応関係を活用できず、異なるサンプル間の内在的な相関関係を見逃している。この問題に対処するために、私たちはアラインとアテンション多モーダル要約(A2Summ)を導入する。これは統合された多モーダルトランスフォーマーに基づくモデルであり、多モーダル入力を効果的にアラインメントとアテンションを行うことができる。さらに、サンプル間およびサンプル内の相関関係をモデル化するための2つの新しいコントラスティブ損失を提案する。標準的なビデオ要約データセット(TVSumおよびSumMe)と多モーダル要約データセット(Daily MailおよびCNN)における広範な実験により、A2Summの優位性が示され、すべてのデータセットで最先端の性能を達成した。また、大規模な多モーダル要約データセットBLiSSを収集した。このデータセットにはライブストリーム動画と書き起こしテキストが含まれており、注釈付きの要約も提供されている。私たちのコードとデータセットは公開されており、以下のURLからアクセスできる: ~\url{https://boheumd.github.io/A2Summ/}。この翻訳では、専門用語や技術的概念について一般的な日本語表現を使用し、「Align and Attend Multimodal Summarization」などの固有名詞については原文に忠実に翻訳しました。「BLiSS」のような不馴染みの用語については括弧内に原文を記載しています。全体的な文章構造や表現は日本語の読みやすさと自然さを考慮して調整されています。

アラインとアテンド:双方向コントラスティブ損失を用いたマルチモーダル要約 | 最新論文 | HyperAI超神経