Command Palette
Search for a command to run...
ARC-Hunyuan-Video-7B:現実世界のショートビデオの構造化理解
ARC-Hunyuan-Video-7B:現実世界のショートビデオの構造化理解
概要
現実世界におけるユーザー生成の短い動画、特にWeChat ChannelやTikTokなどのプラットフォームで配信される動画は、モバイルインターネットを支配しています。しかし、現在の大型マルチモーダルモデルは、効果的な動画検索・推薦や新たな動画アプリケーションの基盤となる、重要な時間的構造を持ち、詳細かつ深く動画を理解する能力を欠いています。現実世界の短い動画を理解することは、複雑な視覚的要素、視覚と音声の両方における高い情報密度、そして感情表現や視点の伝達に焦点を当てた高速なテンポから、実際には困難です。これは、視覚、音声、テキストを含むマルチモーダル情報の効果的な統合を要求する高度な推論を必要とします。本研究では、構造的な理解を目的として、入力された原始的な動画から視覚、音声、テキストの信号をエンド・トゥ・エンドで処理するマルチモーダルモデル「ARC-Hunyuan-Video」を紹介します。このモデルは、マルチスケールのタイムスタンプ付き動画キャプション作成および要約、オープンエンドの動画質問応答、時間的動画グランドイング(時系列的位置特定)、および動画推論の機能を備えています。自動アノテーションパイプラインから得た高品質なデータを活用し、本モデルは包括的なトレーニングプロセス(事前学習、インストラクションファインチューニング、コールドスタート、強化学習(RL)後のファインチューニング、および最終的なインストラクションファインチューニング)を経て学習されています。本研究で導入したベンチマーク「ShortVid-Bench」における定量評価および定性比較により、本モデルは現実世界の動画理解において優れた性能を示しています。また、多様な下流タスクに対してゼロショットまたは少数サンプルでのファインチューニングが可能であり、実用的な応用に適しています。本モデルの現実世界での導入により、ユーザーの参加度と満足度が実際かつ測定可能なレベルで向上しており、その効率性がこの成功を支えています。ストレステストでは、H20 GPU上で1分間の動画に対する推論時間がわずか10秒であることが確認されています。