17日前

事前学習された画像バックボーンを活用した意味的画像合成

Tariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari

要約

意味画像合成（Semantic image synthesis）とは、ユーザーが提供する意味ラベルマップから画像を生成する条件付き画像生成タスクであり、生成画像のコンテンツおよび空間配置を両方制御可能な点で重要な課題である。近年、拡散モデル（diffusion models）は生成画像モデリングの最先端水準を押し上げてきたが、その推論プロセスが反復的であるため、計算コストが非常に高くなるという課題がある。一方、GAN（Generative Adversarial Networks）などの他のアプローチは、生成に単一のフォワードパスで十分なため、効率的であるものの、大規模かつ多様なデータセットでは画像品質が低下しがちである。本研究では、画像分類などのタスクで事前学習された特徴バックボーンネットワークを活用することで、極めて現実的な画像を生成する新たなタイプのGANディスクリミネーターを提案する。さらに、より優れた文脈モデリングを実現する新しいジェネレーター構造を導入し、クロスアテンション（cross-attention）を用いてノイズを潜在変数に注入することで、より多様な画像を生成する。本研究で提案するモデル（DP-SIMS）は、ADE-20K、COCO-Stuff、Cityscapesの3つのデータセットにおいて、画像の質および入力ラベルマップとの整合性という観点で最先端の性能を達成しており、最近の拡散モデルを上回る結果を示す一方で、推論に必要な計算量は2桁以上削減されている。