Command Palette
Search for a command to run...
Foveated Diffusion:効率的な空間適応型画像および動画生成
Foveated Diffusion:効率的な空間適応型画像および動画生成
Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein
概要
拡散モデルおよびフローマッチングモデルは、インタラクティブな画像生成やストリーミング動画生成など、創造的なコンテンツ制作において前例のない能力を解き放ってきた。しかし、解像度、フレームレート、コンテキスト長の向上に対する需要が高まるにつれ、生成されたトークン数に対して計算複雑度が二次的に増大するため、効率的な生成はますます困難になっている。本研究では、ユーザーの注視点(gaze location)が既知である、あるいはアイトラッキングなどによって推定可能な環境下において、生成プロセスの効率化を図ることを目的としている。このような環境下では、人間の視覚が注視点の周囲の狭小領域(中心窩領域)では極めて高解像度の視覚情報を知覚する一方で、視野の周辺部では細部の分解能が急速に低下するという、離心率に依存する視力特性を利用する。本手法では、中心窩解像度をモデル化するマスクを用いてトークンを非一様に配分し、中心窩領域には高いトークン密度を、周辺領域には低い密度を割り当てるアプローチを採用する。その結果、混合解像度のトークン設定で画像や動画を生成しても、フル解像度による生成と知覚的に区別がつかない成果が得られる一方、トークン数と生成時間を劇的に削減できる。このために、高解像度データから直接混合解像度のトークンを構築するための原理的なメカニズムを開発し、既存のベースモデルから事後学習(post-training)によって中心窩型拡散モデルを構築可能としつつ、解像度間でのコンテンツの一貫性を維持した。本アプローチの有効性は、広範な分析および慎重に設計されたユーザー研究を通じて検証され、効率的な生成に向けた実践的かつスケーラブルな軸としてのフォケーション(foveation)の効果を明らかにした。