
生成モデル、表現学習、分類の3つは機械学習(ML)における核心的な課題であるが、それらの最先端(SoTA)手法は依然として大きく分離した状態にあり、統合的なアプローチは乏しい。本論文では、これらの3つの課題を統一的な原理で扱うことは可能か?という問いを提示する。このような統合は、MLのパイプラインを単純化し、異なるタスク間での相互作用を促進する可能性を秘めている。我々は、この目標に向けた一歩として、潜在空間ゾーニングネットワーク(Latent Zoning Network, LZN)を提案する。LZNの中心的なアイデアは、すべてのタスクに共通するガウス型の潜在空間を構築することである。各データタイプ(画像、テキスト、ラベルなど)に対して、サンプルを互いに排他的な潜在空間領域にマッピングするエンコーダと、潜在変数から元のデータに再構成するデコーダを備える。機械学習タスクは、これらのエンコーダとデコーダの合成として定式化される。たとえば、ラベル条件付き画像生成はラベルエンコーダと画像デコーダの組み合わせで実現され、画像埋め込みは画像エンコーダのみを用い、分類タスクは画像エンコーダとラベルデコーダの組み合わせで実現される。我々はLZNの有効性を、次第に複雑さを増す3つのシナリオにおいて検証した。(1)LZNは既存モデルの性能向上に寄与する:最先端のRectified Flowモデルと組み合わせた場合、LZNはCIFAR10におけるFIDスコアを2.76から2.59まで改善したが、学習目的関数の変更は一切行わなかった。(2)LZNは独立したタスクを解くことができる:表現学習において、LZNは補助的な損失関数を用いずに非教師あり表現学習を実現でき、ImageNet上での下流タスクにおける線形分類性能において、従来の代表的な手法であるMoCoとSimCLRをそれぞれ9.3%、0.2%上回った。(3)LZNは複数のタスクを同時に解くことができる:画像エンコーダ・デコーダとラベルエンコーダ・デコーダを備えることで、LZNは設計上、画像生成と分類の両タスクを同時に行うことができ、FIDスコアの向上とCIFAR10における最先端の分類精度を達成した。コードおよび学習済みモデルは、https://github.com/microsoft/latent-zoning-networks にて公開されている。プロジェクトのウェブサイトは https://zinanlin.me/blogs/latent_zoning_networks.html にて閲覧可能である。