
要約
我々は、画像と動画の統合生成を実現する高性能な基礎モデル「Waver」を提案する。Waverは、720pのネイティブ解像度で5〜10秒の動画を直接生成でき、その後1080pへと拡大処理を行う。このモデルは、単一で統合されたフレームワーク内でテキストから動画(T2V)、画像から動画(I2V)、テキストから画像(T2I)への生成を同時にサポートしている。モダリティ間の整合性を高め、学習の収束を加速するため、ハイブリッドストリームDiTアーキテクチャを導入した。また、学習データの品質を確保するため、包括的なデータ選定パイプラインを構築し、MLLMベースの動画品質評価モデルを手動でアノテーション・訓練して、最高品質のサンプルのみをフィルタリングした。さらに、高品質な動画生成を促進するための詳細な学習および推論の手順を提供する。これらの貢献に基づき、Waverは複雑な運動を的確に捉え、動画生成において優れた運動振幅と時間的一貫性を実現している。特に、2025年7月30日10時00分(GMT+8)時点のArtificial AnalysisのT2VおよびI2Vランキングにおいて、トップ3にランクインしており、既存のオープンソースモデルを一貫して上回り、最先端の商用ソリューションと同等またはそれを上回る性能を発揮している。本技術報告が、コミュニティがより効率的に高品質な動画生成モデルを訓練し、動画生成技術の進展を加速する一助となることを期待する。公式ページ:https://github.com/FoundationVision/Waver