HyperAIHyperAI

Command Palette

Search for a command to run...

事前学習された画像バックボーンを活用した意味的画像合成

Tariq Berrada Jakob Verbeek Camille Couprie Karteek Alahari

概要

意味画像合成(Semantic image synthesis)とは、ユーザーが提供する意味ラベルマップから画像を生成する条件付き画像生成タスクであり、生成画像のコンテンツおよび空間配置を両方制御可能な点で重要な課題である。近年、拡散モデル(diffusion models)は生成画像モデリングの最先端水準を押し上げてきたが、その推論プロセスが反復的であるため、計算コストが非常に高くなるという課題がある。一方、GAN(Generative Adversarial Networks)などの他のアプローチは、生成に単一のフォワードパスで十分なため、効率的であるものの、大規模かつ多様なデータセットでは画像品質が低下しがちである。本研究では、画像分類などのタスクで事前学習された特徴バックボーンネットワークを活用することで、極めて現実的な画像を生成する新たなタイプのGANディスクリミネーターを提案する。さらに、より優れた文脈モデリングを実現する新しいジェネレーター構造を導入し、クロスアテンション(cross-attention)を用いてノイズを潜在変数に注入することで、より多様な画像を生成する。本研究で提案するモデル(DP-SIMS)は、ADE-20K、COCO-Stuff、Cityscapesの3つのデータセットにおいて、画像の質および入力ラベルマップとの整合性という観点で最先端の性能を達成しており、最近の拡散モデルを上回る結果を示す一方で、推論に必要な計算量は2桁以上削減されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています