HyperAIHyperAI

Command Palette

Search for a command to run...

多モーダル事前学習による高密度動画キャプション生成

Gabriel Huang Bo Pang Zhenhai Zhu Clara Rivera Radu Soricut

概要

料理、車の整備、家庭内の修繕など、具体的な実践スキルを習得する際、 instructional video(指導動画)を活用する傾向が強まっています。このような動画のユーザーエクスペリエンスは、主な手順に対応するタイムスタンプ付きのメタ情報(例:注釈)によって向上することが知られています。こうした注釈を自動的に生成することは困難であり、本研究ではその点に関して2つの貢献を提示します。第一に、多様な指導動画とタイムスタンプ付きの注釈を備えた、新しい高密度動画キャプションデータセット「Video Timeline Tags(ViTT)」を構築し、公開しました。第二に、大量の非教師付き動画データおよびキャプション風テキストデータを活用する、複数のマルチモーダルシーケンス・トゥ・シーケンス事前学習戦略を検討しました。本研究では、YouCook2およびViTTの両データセットを用いて、高密度動画キャプションモデルの事前学習とその後の微調整(fine-tuning)を実施しました。その結果、こうしたモデルが幅広い種類の指導動画に対して優れた汎化性能を持ち、高いロバスト性を示すことが明らかになりました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています