Command Palette
Search for a command to run...

要約
本報告では、高解像度画像および10秒間の動画合成に特化した最先端の基礎モデル群「Kandinsky 5.0」を紹介する。このフレームワークは、以下の3つの主要なモデルラインナップで構成される:Kandinsky 5.0 Image Lite(60億パラメータの画像生成モデル群)、Kandinsky 5.0 Video Lite(20億パラメータの高速・軽量なテキストから動画、画像から動画への変換モデル)、およびKandinsky 5.0 Video Pro(190億パラメータの高品質な動画生成を実現するモデル)。本研究では、多段階の学習パイプラインにおいて、膨大な事前学習を実施し、自己教師学習による微調整(SFT)や強化学習(RL)を用いた後処理といった品質向上技術を統合するにあたり、データ収集、処理、フィルタリング、クラスタリングを含むデータキュレーションのライフサイクルについて包括的な検証を実施した。さらに、Kandinsky 5.0が多様なタスクにおいて高速な生成速度と最先端の性能を達成するための、新規なアーキテクチャ設計、学習戦略、推論最適化手法を提案している。これらの有効性は、人間による評価を通じて実証されている。大規模かつ公開可能な生成フレームワークとして、Kandinsky 5.0は事前学習段階およびその後の段階における全能力を活用し、幅広い生成応用に柔軟に適応可能である。本報告書およびオープンソースコードと学習チェックポイントの公開を通じて、研究コミュニティにおける高品質生成モデルの開発とアクセスの促進に大きく貢献することを期待している。