
要約
良好な画像間変換モデルは、異なる視覚ドメイン間のマッピングを学習する一方で、以下の特性を満たすべきです:1) 生成された画像の多様性と 2) 複数のドメインに対するスケーラビリティ。既存の手法はこれらの問題のいずれかに対処しており、多様性が限定的であるか、またはすべてのドメインに対して複数のモデルが必要となっています。本研究では、これら両方の問題に取り組む単一のフレームワークであるStarGAN v2を提案し、ベースラインに対して大幅に改善された結果を示しています。CelebA-HQおよび新しい動物顔データセット(AFHQ)における実験により、視覚品質、多様性、スケーラビリティにおいて当手法の優位性が確認されました。画像間変換モデルをより適切に評価するために、AFHQ(大域的および局所的な違いが大きい高品質な動物顔データセット)を公開します。コード、事前学習済みモデル、データセットは https://github.com/clovaai/stargan-v2 で入手可能です。