HyperAIHyperAI

Command Palette

Search for a command to run...

意味と再構成の両方が重要である:テキストから画像生成および編集に適した表現エンコーダーの構築

Abstract

現代の潜在拡散モデル(LDMs)は、主にピクセルレベルの再構成を最適化する低次元の変分自己符号化器(VAE)潜在空間で動作することが一般的である。視覚生成と理解の統一を図るため、近年では表現エンコーダから得られる高次元特徴を生成潜在変数として採用する傾向が高まっている。しかし、本研究ではこのアプローチにおける2つの根本的な課題を実証的に明らかにする:(1)識別的特徴空間には凝縮的な正則化が欠如しており、拡散モデルが多様体外の潜在変数に陥りやすく、結果として物体構造の正確性が損なわれる;(2)エンコーダのピクセルレベル再構成能力が本質的に弱いため、生成器が細部の幾何構造やテクスチャを正確に学習できない。本論文では、理解指向のエンコーダ特徴を生成タスクに適応するための体系的なフレームワークを提案する。我々は、潜在空間を正則化するための意味論的・ピクセル再構成目的を導入し、意味情報と細部情報の両方を極めて凝縮された表現(96チャネル、空間的ダウンサンプリング率16×16)に圧縮可能にする。この設計により、潜在空間は意味的に豊かでありながら、最先端の画像再構成性能を達成しつつ、生成の正確性を確保するのに十分なコンパクト性を維持する。この表現を基盤として、統一的なテキストから画像生成(T2I)および画像編集モデルを構築した。さまざまな特徴空間と比較したベンチマーク評価において、本手法が最先端の再構成性能を達成し、収束速度が速く、T2Iおよび編集タスクにおいて顕著な性能向上を示した。これにより、表現エンコーダが堅牢な生成コンポーネントとして効果的に再利用可能であることが実証された。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
意味と再構成の両方が重要である:テキストから画像生成および編集に適した表現エンコーダーの構築 | Papers | HyperAI超神経