17日前
DGInStyle:画像拡散モデルとスタイライズドセマンティック制御を用いたドメイン汎化型セマンティックセグメンテーション
Yuru Jia, Lukas Hoyer, Shengyu Huang, Tianfu Wang, Luc Van Gool, Konrad Schindler, Anton Obukhov

要約
大規模な事前学習済み潜在拡散モデル(LDMs)は、創造的なコンテンツの生成、少量のファインチューニングによるユーザーデータへの特化、およびセマンティックマップなどの他のモダリティに基づく出力の制御といった優れた能力を示している。しかし、これらは大規模なデータ生成ツールとして利用可能だろうか?たとえば、セマンティックセグメンテーションのような認識スタック内のタスクの改善に役立つだろうか?本研究では、自動運転を文脈としてこの問いに取り組み、「はい」と明確に答えている。そこで、DGInStyleと呼ばれる効率的なデータ生成パイプラインを提案する。まず、限定されたドメイン内でセマンティック制御された生成に向けた事前学習済みLDMの特化問題を検討する。次に、学習されたセマンティック制御を豊かな生成事前知識に組み込むための「スタイル交換(Style Swap)」手法を提案する。さらに、LDMが支配的オブジェクトに偏りやすいという問題を克服するため、マルチスケール潜在融合(Multi-resolution Latent Fusion)技術を設計する。DGInStyleを用いて、多様な街並みシーンのデータセットを生成し、そのデータセット上でドメインに依存しないセマンティックセグメンテーションモデルを学習し、複数の代表的な自動運転データセットで評価を行う。その結果、従来の最先端手法と比較して、複数のドメイン一般化手法の性能が一貫して向上することが確認された。本研究で生成したデータセットおよびソースコードは、https://dginstyle.github.io にて公開されている。