Command Palette
Search for a command to run...
PixNerd:ピクセルニューラルフィールドドリフト
PixNerd:ピクセルニューラルフィールドドリフト
Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang
概要
現在の拡散変換器(diffusion transformers)の成功は、事前学習済みの変分自己符号化器(VAE)によって構成される圧縮された潜在空間に大きく依存している。しかし、この二段階学習アーキテクチャは、必然的に誤差の累積や復号アーティファクトを引き起こす。こうした問題に対処するため、研究者たちは複雑なカスケードパイプラインとトークンの複雑性の増加を伴いながら、ピクセル空間に戻るアプローチを採用している。それに対して、本研究では神経フィールドを用いてパッチ単位の復号をモデル化する新しいアプローチを提案し、単一スケール・単一段階・効率的・エンドツーエンドの解決策を提示する。これを「ピクセル神経フィールド拡散」(Pixel Neural Field Diffusion, PixelNerd)と呼ぶ。PixelNerdにおける効率的な神経フィールド表現により、複雑なカスケードパイプラインやVAEを一切用いずに、ImageNet 256×256 において2.15のFID、ImageNet 512×512 において2.84のFIDを達成した。さらに、本研究のPixelNerdフレームワークをテキストから画像生成への応用に拡張した。PixelNerd-XXL/16は、GenEvalベンチマークで競争力のある0.73の総合スコア、DPGベンチマークで80.9の総合スコアを達成した。