8ヶ月前

マルチモーダル

Video Captioning

マルチモーダル

Mattia Soldan Alejandro Pardo Juan León Alcázar Fabian Caba Heilbron Chen Zhao Silvio Giancola Bernard Ghanem

概要

最近、ビデオ言語研究への関心が高まり、大規模データセットの開発を推進しています。これらのデータセットは、データ駆動型の機械学習技術を可能にします。一方で、これらのデータセットがビデオ言語対応タスクに適しているかどうかの評価には限られた努力しか払われていません。最近の研究では、これらのデータセットに重大な制約があることが明らかになり、最先端の技術が隠れたデータセットバイアスに過学習している可能性があると指摘されています。本研究では、MAD（Movie Audio Descriptions）という新しいベンチマークを提案します。MADは既存のビデオデータセットにテキスト注釈を追加する従来のパラダイムから離れ、一般的な映画の利用可能な音声説明をクローリングし、それらを合わせることに焦点を当てています。MADには384,000以上の自然言語文が含まれており、1,200時間以上のビデオに根ざしています。また、現在診断されているビデオ言語対応データセットのバイアスが大幅に減少しています。MADの収集戦略により、短い時間的な瞬間（通常数秒間）を最大3時間までの多様な長編ビデオ内に正確に対応させるという新たな且つより困難なバージョンのビデオ言語対応タスクが可能になりました。私たちはMADのデータとベースラインコードを https://github.com/Soldelli/MAD で公開しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

Video Captioning

マルチモーダル

Mattia Soldan Alejandro Pardo Juan León Alcázar Fabian Caba Heilbron Chen Zhao Silvio Giancola Bernard Ghanem

概要

最近、ビデオ言語研究への関心が高まり、大規模データセットの開発を推進しています。これらのデータセットは、データ駆動型の機械学習技術を可能にします。一方で、これらのデータセットがビデオ言語対応タスクに適しているかどうかの評価には限られた努力しか払われていません。最近の研究では、これらのデータセットに重大な制約があることが明らかになり、最先端の技術が隠れたデータセットバイアスに過学習している可能性があると指摘されています。本研究では、MAD（Movie Audio Descriptions）という新しいベンチマークを提案します。MADは既存のビデオデータセットにテキスト注釈を追加する従来のパラダイムから離れ、一般的な映画の利用可能な音声説明をクローリングし、それらを合わせることに焦点を当てています。MADには384,000以上の自然言語文が含まれており、1,200時間以上のビデオに根ざしています。また、現在診断されているビデオ言語対応データセットのバイアスが大幅に減少しています。MADの収集戦略により、短い時間的な瞬間（通常数秒間）を最大3時間までの多様な長編ビデオ内に正確に対応させるという新たな且つより困難なバージョンのビデオ言語対応タスクが可能になりました。私たちはMADのデータとベースラインコードを https://github.com/Soldelli/MAD で公開しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています