8ヶ月前

マルチモーダル

マルチモーダル表現

ビデオ理解

マルチモーダル

コンピュータビジョン

Aman Khullar; Udit Arora

概要

本論文では、マルチモーダル抽象的要約（Multimodal Abstractive Text Summarization）の新しいモデルであるMASTを紹介します。このモデルは、テキスト、音声、ビデオの3つのモーダリティから情報を抽出して利用します。これまでのマルチモーダル抽象的要約に関する研究では、主にテキストとビデオの2つのモーダリティからのみ情報が利用されていました。本研究では、音声モーダリティから情報を抽出する有用性と課題について検討し、これらの課題を克服するために、モデルがテキストモーダリティにより多くの注意を払うことを可能にするシーケンス・ツー・シーケンスの三模態階層的アテンションベースモデルを提案します。MASTは、How2データセットにおけるマルチモーダル言語理解タスクにおいて、現行の最先端モデル（ビデオ-テキスト）よりもコンテンツF1スコアで2.51ポイント、Rouge-Lスコアで1.00ポイント高い性能を示しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

ビデオ理解

マルチモーダル

コンピュータビジョン

Aman Khullar; Udit Arora

概要

本論文では、マルチモーダル抽象的要約（Multimodal Abstractive Text Summarization）の新しいモデルであるMASTを紹介します。このモデルは、テキスト、音声、ビデオの3つのモーダリティから情報を抽出して利用します。これまでのマルチモーダル抽象的要約に関する研究では、主にテキストとビデオの2つのモーダリティからのみ情報が利用されていました。本研究では、音声モーダリティから情報を抽出する有用性と課題について検討し、これらの課題を克服するために、モデルがテキストモーダリティにより多くの注意を払うことを可能にするシーケンス・ツー・シーケンスの三模態階層的アテンションベースモデルを提案します。MASTは、How2データセットにおけるマルチモーダル言語理解タスクにおいて、現行の最先端モデル（ビデオ-テキスト）よりもコンテンツF1スコアで2.51ポイント、Rouge-Lスコアで1.00ポイント高い性能を示しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MAST: 多モーダル抽象要約と三モーダル階層的注意 | 記事 | HyperAI超神経