HyperAIHyperAI

Command Palette

Search for a command to run...

Appleが画像理解と生成を両立する新モデル「Manzano」を発表、オープンソース界に衝撃

Appleは、画像の理解と生成の両方を同時に行える新モデル「Manzano」を開発中であると発表した。Manzanoは、スペイン語で「林檎の木」を意味し、画像処理における「理解」と「生成」の二つのタスクを統合的に扱うという技術的挑戦に応えるためのアーキテクチャを持つ。現在、オープンソースモデルは多くの場合、画像理解力と生成力のどちらかに特化しており、商業用モデル(例:OpenAIのGPT-4o、GoogleのGemini 2.5 Flash Image Generation)に比べて性能で劣っている。Appleは、Manzanoがこの課題を克服したと主張している。 Manzanoの核となるのは「ハイブリッド画像トークナイザー」。この仕組みは、同一の画像エンコーダーから出力される2種類のトークンを用いる。一つは連続値(浮動小数点)のトークンで、画像の理解に適しており、もう一つは離散的なカテゴリトークンで、画像生成に最適化されている。この二つのデータストリームが同じエンコーダーから出るため、従来のモデルで生じる理解と生成の衝突を大幅に軽減できる。 モデルは、ハイブリッドトークナイザー、統合型言語モデル、および別途の画像デコーダーの3つの主要構成で構成され、パラメータ数は0.9億~35.2億、解像度は256~2048ピクセルに対応。学習には23億の画像-テキストペアと10億のテキスト-画像ペアを用い、合計1.6兆トークンのデータを活用。合成データ(DALL-E 3、ShareGPT-4oなど)も一部使用している。 ベンチマークテストでは、Manzano 30B(300億パラメータ)がScienceQA、MMMU、MathVistaなどのテキストを多く含む画像解析タスクで、GPT-4oやGeminiと同等の性能を示した。モデルサイズを拡大するほど性能が向上し、30億パラメータ版は最小モデルより10ポイント以上高いスコアを記録。9つのマルチモーダルベンチマークでもトップクラスに位置付けられている。 また、専用モデルとの比較では性能差は1ポイント未満に留まり、画像生成の複雑な指示処理、スタイル転送、インペイント、アウトペイント、深度推定なども正確に実行可能。Appleは、このモジュール構造により、各部品の独立した更新や、異なるAI研究手法の統合が可能だと説明している。 ただし、Appleの基礎モデル全体の性能は依然としてリーダークラスに比べて劣っており、Apple IntelligenceではiOS 26からOpenAIのGPT-5を採用する予定。Manzanoは技術的進歩を示しているが、将来的な実装と実際のパフォーマンスにより、外部モデルへの依存を減らせるかが鍵となる。

関連リンク