Apple、 Forgotten AIテクニック「Normalizing Flows」で高解像度画像生成モデルを開発 - TarFlowとSTARFlowの新展開
Appleが NORMALIZING FLOWSを活用した画像生成モデルを開発 概要 2023年現在、大多数の生成画像モデルはディフュージョンモデル(例如、Stable Diffusion)やオートレグレッシブモデル(例如、OpenAIのGPT-4o)の2つのカテゴリに大別されています。しかし、Appleは最近、ノーマライジングフロース(NFs)という忘れられたAI技術の可能性を探るべく、2つの研究論文を発表しました。 Normalizing Flowsとは ノーマライジングフロースは、現実世界のデータ(画像など)を数学的に構造化されたノイズに変換し、それを逆の過程で新たなサンプルを生成するAIモデルです。主な利点は、生成される各画像の確率を正確に計算できることで、この特徴はディフュージョンモデルにはないものです。ただし、初期のフロースベースモデルは、ぼけた画像や詳細不足と多様性の欠如といった課題がありました。 研究 #1: TarFlow 初めに紹介される「Normalizing Flows are Capable Generative Models」では、新規モデルTarFlow(Transformer AutoRegressive Flowの略)が提案されました。このモデルは、従来のフロースモデルで使用されていた手作りの層を、Transformerブロックに置き換えることにより、画質の改善を図ります。画像を小さなパッチに分割し、それらをブロックごとに生成するため、前ブロックの情報に基づいて予測を行います。OpenAIの方法とは異なる点は、TarFlowが画像をトークン化せず、ピクセル値を直接生成することで、品質の劣化や柔軟性の欠如が回避できるということです。 研究 #2: STARFlow 次に、「STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis」では、TarFlowを改良したSTARFlow(Scalable Transformer AutoRegressive Flow)が提示されました。STARFlowは直接ピクセル空間で画像を生成せず、圧縮された-latent space-で作業を行い、最後にデコーダーが解像度を上げて最終画像を生成します。これにより、数百万のピクセルを直接予測することなく、より洗練された画像の生成が可能になりました。また、テキスト理解の部分は既存の言語モデル(例如、Googleの小型言語モデルGemma)を利用することで、モデルのサイズを抑えつつ、高品質な画像生成を実現しています。 STARFlowとOpenAIのGPT-4oの比較 一方、OpenAIの新しいGPT-4oモデルは、画像を離散的なトークンの系列として扱うことで、同一のトークンストリーム内で文書、画像、音声の生成を統合しています。しかし、これは計算量が非常に大きくて時間がかかるというデメリットがあり、クラウド上で実行されることを前提としています。Appleの STARFlow は、モバイル機器でも効率的に動作しつつ、高品質な画像生成を目指しており、両社のアプローチの違いが明確になっています。 業界の反応 Appleのこれらの研究は、忘れられていたAI技術に新たな光を当てました。業界では、Mobile AIへの取り組みとして注目を集めている一方、具体的な商用化までの道筋についてはまだ議論が続いている模様です。Appleは、プライバシー重視のOn-device AI開発を進めることで知られており、今回の研究成果もその戦略の一環として位置付けられることができるでしょう。