2ヶ月前

ノーマライジング・フロウは生成モデルとしての能力を持つ

Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
ノーマライジング・フロウは生成モデルとしての能力を持つ
要約

ノーマライジング・フロウ(NFs)は連続的な入力に対する尤度ベースのモデルである。これらのモデルは密度推定と生成モデリングの両タスクにおいて有望な結果を示しているが、近年では比較的注目を集めていなかった。本研究では、NFsが以前に考えられていたよりも強力であることを示す。TarFlowという単純かつスケーラブルなアーキテクチャを提案する。これは、画像パッチ上の自己回帰型トランスフォーマー・ブロックのスタックで構成され、層間で自己回帰方向を交互に変更するマスク付き自己回帰フロウ(MAFs)のトランスフォーマーに基づいたバリエーションである。TarFlowは端対端で訓練することが容易であり、ピクセルを直接モデル化および生成できる能力を持つ。さらに、サンプル品質向上のために3つの重要な技術を提案する:訓練時のガウシアンノイズ拡張、訓練後のデノイジング手順、クラス条件付きおよび非条件付き設定の両方に対して効果的なガイダンス方法である。これらの技術を組み合わせることで、TarFlowは画像の尤度推定において新たな最先端の結果を達成し、従来の最良手法を大幅に上回った。また、単独のNFモデルとして初めてディファージョンモデルと同等の品質と多様性を持つサンプルを生成した。当該コードは https://github.com/apple/ml-tarflow にて公開されている。この翻訳では以下の点に注意しました:1. 専門用語や技術概念(例:ノーマライジング・フロウ、トランスフォーマー・ブロックなど)は一般的な日本語での表現を使用しました。2. 日本語の表現習慣に合わせて文章構造や語順を調整しました。3. 正式かつ客観的な書き方を使用し、口語的な表現は避けました。4. 原文との内容の一貫性を保ちつつ、日本語読者にとって自然な文章構造に仕上げました。