HyperAIHyperAI

Command Palette

Search for a command to run...

重要な部分をアップサンプルする:拡散トランスフォーマーのための領域適応型潜在サンプリング

Wongi Jeong Kyungryeol Lee Hoigi Seo Se Young Chun

概要

拡散トランスフォーマーは、高忠実度の画像および動画生成において、U-netに基づく拡散モデルの代替として登場し、スケーラビリティに優れている。しかし、その高い計算コストは実世界での導入において大きな障害となっている。現存する高速化手法は主に時間方向の特徴を活用しており、拡散ステップ間でキャッシュされた特徴を再利用するものである。ここでは、空間方向に沿った推論を高速化するトレーニング不要なフレームワークとして、領域適応型潜在空間アップサンプリング(Region-Adaptive Latent Upsampling、RALU)を提案する。RALUは3段階にわたる混合解像度サンプリングを実行する:1)低解像度のノイズ除去潜在拡散により、グローバルなセマンティック構造を効率的に捉える;2)高解像度においてアーティファクトが発生しやすい特定領域での領域適応型アップサンプリング;3)高解像度でのすべての潜在空間のアップサンプリングにより、詳細な修正を行う。解像度変換にわたって生成を安定化させるために、ノイズ時間ステップの再スケジューリングを用いて、変化する解像度に応じたノイズレベルを適応させる。本手法は、FLUXにおいて最大7.0倍、Stable Diffusion 3において3.0倍のスピードアップを達成しつつ、画像品質を維持する形で計算量を大幅に削減する。さらに、RALUはキャッシュ手法を含む既存の時間方向高速化手法と相補的であり、生成品質を損なうことなく推論遅延をさらに低減するためのシームレスな統合が可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています