HyperAIHyperAI

Command Palette

Search for a command to run...

PixNerd:ピクセルニューラルフィールドドリフト

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

概要

現在の拡散変換器(diffusion transformers)の成功は、事前学習済みの変分自己符号化器(VAE)によって構成される圧縮された潜在空間に大きく依存している。しかし、この二段階学習アーキテクチャは、必然的に誤差の累積や復号アーティファクトを引き起こす。こうした問題に対処するため、研究者たちは複雑なカスケードパイプラインとトークンの複雑性の増加を伴いながら、ピクセル空間に戻るアプローチを採用している。それに対して、本研究では神経フィールドを用いてパッチ単位の復号をモデル化する新しいアプローチを提案し、単一スケール・単一段階・効率的・エンドツーエンドの解決策を提示する。これを「ピクセル神経フィールド拡散」(Pixel Neural Field Diffusion, PixelNerd)と呼ぶ。PixelNerdにおける効率的な神経フィールド表現により、複雑なカスケードパイプラインやVAEを一切用いずに、ImageNet 256×256256\times256256×256 において2.15のFID、ImageNet 512×512512\times512512×512 において2.84のFIDを達成した。さらに、本研究のPixelNerdフレームワークをテキストから画像生成への応用に拡張した。PixelNerd-XXL/16は、GenEvalベンチマークで競争力のある0.73の総合スコア、DPGベンチマークで80.9の総合スコアを達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
PixNerd:ピクセルニューラルフィールドドリフト | 記事 | HyperAI超神経