18日前

Skywork UniPic:視覚理解と生成のための統合型自己回帰モデル

Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
Skywork UniPic:視覚理解と生成のための統合型自己回帰モデル
要約

Skywork UniPic を紹介します。これは15億パラメータを有する自己回帰型モデルであり、単一のアーキテクチャ内に画像理解、テキストから画像生成、画像編集の機能を統合するもので、タスク固有のアダプターやモジュール間接続部品の導入を不要にしています。本研究では、コンパクトなマルチモーダルシステムが汎用ハードウェア上で最先端の性能を達成できることを実証しました。Skywork UniPic は GenEval スコアで 0.86 を達成し、多数の既存統合モデルを上回り、DPG-Bench の複雑な生成タスクにおいて新記録となる 85.5 を記録しました。また、画像編集性能においては GEditBench-EN で 5.83、ImgEdit-Bench で 3.49 を達成し、GPUメモリ15GB未満(例:RTX 4090)で 1024×1024 解像度の画像生成が可能となっています。本モデルの主な特徴は以下の3点です:(1)合成にマスク付き自己回帰エンコーダを、理解に SigLIP2 エンコーダを用いる分離型エンコーディング戦略を採用し、両者を共有の自己回帰デコーダに統合;(2)256×256 から 1024×1024 へと段階的に解像度を拡大する進化的な、解像度に配慮したトレーニングスケジュールを採用し、パラメータの動的アンフリーズにより性能と安定性のバランスを最適化;(3)タスク固有の報酬モデルを用いて拡張された、1億規模の meticulously に構築されたデータセットを用いて、生成および編集の目的を精緻に最適化。本研究により、高忠実度のマルチモーダル統合が極めて高いリソース消費を伴うものではないことが示され、実用的かつ高忠実度なマルチモーダルAIの展開に向けた新たなパラダイムを確立しました。コードおよびモデル重みは、以下のURLで公開されています:https://huggingface.co/Skywork/Skywork-UniPic-1.5B