
Skywork UniPic を紹介します。これは15億パラメータを有する自己回帰型モデルであり、単一のアーキテクチャ内に画像理解、テキストから画像生成、画像編集の機能を統合するもので、タスク固有のアダプターやモジュール間接続部品の導入を不要にしています。本研究では、コンパクトなマルチモーダルシステムが汎用ハードウェア上で最先端の性能を達成できることを実証しました。Skywork UniPic は GenEval スコアで 0.86 を達成し、多数の既存統合モデルを上回り、DPG-Bench の複雑な生成タスクにおいて新記録となる 85.5 を記録しました。また、画像編集性能においては GEditBench-EN で 5.83、ImgEdit-Bench で 3.49 を達成し、GPUメモリ15GB未満(例:RTX 4090)で 1024×1024 解像度の画像生成が可能となっています。本モデルの主な特徴は以下の3点です:(1)合成にマスク付き自己回帰エンコーダを、理解に SigLIP2 エンコーダを用いる分離型エンコーディング戦略を採用し、両者を共有の自己回帰デコーダに統合;(2)256×256 から 1024×1024 へと段階的に解像度を拡大する進化的な、解像度に配慮したトレーニングスケジュールを採用し、パラメータの動的アンフリーズにより性能と安定性のバランスを最適化;(3)タスク固有の報酬モデルを用いて拡張された、1億規模の meticulously に構築されたデータセットを用いて、生成および編集の目的を精緻に最適化。本研究により、高忠実度のマルチモーダル統合が極めて高いリソース消費を伴うものではないことが示され、実用的かつ高忠実度なマルチモーダルAIの展開に向けた新たなパラダイムを確立しました。コードおよびモデル重みは、以下のURLで公開されています:https://huggingface.co/Skywork/Skywork-UniPic-1.5B