2ヶ月前

NUWA-Infinity: 自回帰の自回帰生成による無限視覚合成

Wu, Chenfei ; Liang, Jian ; Hu, Xiaowei ; Gan, Zhe ; Wang, Jianfeng ; Wang, Lijuan ; Liu, Zicheng ; Fang, Yuejian ; Duan, Nan
NUWA-Infinity: 自回帰の自回帰生成による無限視覚合成
要約

本稿では、無限視覚合成のための生成モデルであるNUWA-Infinityを紹介します。このモデルは、任意の大きさの高解像度画像や長時間ビデオを生成するタスクに定義されています。可変サイズ生成タスクに対処するために、自己回帰型の上位に自己回帰型を重ねた生成メカニズムが提案されています。ここで、グローバルなパッチレベルの自己回帰モデルはパッチ間の依存関係を考慮し、局所的なトークンレベルの自己回帰モデルは各パッチ内の視覚トークン間の依存関係を考慮します。既に生成された関連パッチをキャッシュして現在生成中のパッチのコンテキストとして使用するNearby Context Pool(NCP)が導入されており、これにより計算コストを大幅に削減しながらパッチレベルでの依存関係モデリングを犠牲にすることなく実現できます。また、異なる視覚合成タスクに適した生成順序を決定し、順序認識位置埋め込みを学習するArbitrary Direction Controller(ADC)が使用されています。DALL-E、ImagenおよびPartiと比較して、NUWA-Infinityは任意の大きさの高解像度画像を生成できることだけでなく、長時間ビデオの生成もサポートしています。画像とビデオ両方に対応しているNUWAと比較しても、NUWA-Infinityは解像度や可変サイズ生成において優れた視覚合成能力を持っています。GitHubリンク: https://github.com/microsoft/NUWAホームページリンク: https://nuwa-infinity.microsoft.com

NUWA-Infinity: 自回帰の自回帰生成による無限視覚合成 | 最新論文 | HyperAI超神経