
要約
我々は、同時かつ協調的な音声と映像の生成が可能な統合型モデル「UniVerse-1」を紹介する。学習効率を向上させるために、初期から訓練を開始するのではなく、専門家のつなぎ合わせ(Stitching of Experts: SoE)手法を採用している。このアプローチにより、事前に訓練された映像生成専門モデルと音楽生成専門モデルの対応するモジュールを深く融合させ、それぞれのモデルが持つ基盤的な能力を最大限に活用できる。また、環境音や会話の音声が映像コンテンツと正確に時系列的に整合するようにするため、トレーニングデータをリアルタイムで処理し、トレーニング中にラベルを生成するオンラインアノテーションパイプラインを独自に開発した。この戦略により、テキストベースのアノテーションによる時系列ずれが引き起こす性能劣化を回避できる。これらの技術の連携により、約7,600時間の音声映像データに対するファインチューニングを経た本モデルは、環境音生成において高精度な音声・映像の協調性を実現し、会話生成においても強い時系列整合性を示す。本手法の体系的評価のため、新たなベンチマークデータセット「Verse-Bench」を提案する。音声・映像生成分野の研究を前進させ、Veo3などの最先端モデルとの性能差を縮める目的で、本モデルおよびコードを公開する。本研究が広範な研究コミュニティに貢献することを期待している。プロジェクトページ:この https URL。