2ヶ月前

DDMI: ドメイン非依存潜在拡散モデルによる高品質な暗黙のニューラル表現の合成

Park, Dogyun ; Kim, Sihyeon ; Lee, Sojin ; Kim, Hyunwoo J.
DDMI: ドメイン非依存潜在拡散モデルによる高品質な暗黙のニューラル表現の合成
要約

最近の研究では、様々な領域で任意の連続信号を捉える暗黙的なニューラル表現(INRs: Implicit Neural Representations)を合成するための新しいクラスの生成モデルが導入されました。これらのモデルはドメイン非依存型生成モデルへの道を開きましたが、しばしば高品質な生成に失敗することがあります。我々は既存の方法がニューラルネットワークの重みを生成してINRsをパラメータ化し、固定された位置埋め込み(PEs: Positional Embeddings)を使用してネットワークを評価することに注目しました。このアーキテクチャは生成モデルの表現力を制限し、低品質なINR生成につながると考えられます。この制限に対処するために、我々は位置埋め込みを適応的に生成する代わりにニューラルネットワークの重みを生成するドメイン非依存型潜在拡散モデル(DDMI: Domain-agnostic Latent Diffusion Model for INRs)を提案します。具体的には、離散データと共有潜在空間内の連続信号関数をシームレスに接続する離散-連続空間変分オートエンコーダー(D2C-VAE: Discrete-to-Continuous space Variational AutoEncoder)を開発しました。さらに、階層的に分解されたPEsを使用してINRsを評価する新たな条件付け機構を導入し、表現力を一層向上させました。4つのモダリティ(2D画像、3D形状、Neural Radiance Fields、動画)と7つのベンチマークデータセットでの広範な実験により、DDMIの多様性と既存のINR生成モデルに対する優れた性能が示されています。