17日前
インタラクティブな画像合成および編集のためのAnyCost GANs
Ji Lin, Richard Zhang, Frieder Ganz, Song Han, Jun-Yan Zhu

要約
生成対抗ネットワーク(GAN)は、写実的な画像合成および編集を可能にした。しかし、大規模な生成器(例:StyleGAN2)の高い計算コストのため、エッジデバイス上では1回の編集結果を確認するのに数秒かかることもあり、インタラクティブなユーザー体験を妨げている。本論文では、現代のレンダリングソフトウェアに着想を得て、インタラクティブな自然画像編集を実現する「Anycost GAN」を提案する。Anycost GANは、柔軟な解像度およびチャネル数をサポートするように学習することで、さまざまな速度で高速な画像生成を実現する。フル生成器のサブセットを実行することで、フル生成器と視覚的に類似した出力が得られ、プレビュー用途として優れた代替手段となる。サンプリングベースのマルチリゾリューション学習、適応的チャネル学習、および生成器に依存するディスクリミネータを採用することにより、異なる構成で評価可能なAnycost生成器は、個別に学習されたモデルと比較してより優れた画像品質を達成できる。さらに、画像投影時の異なるサブ生成器間の一貫性を促進するため、新たなエンコーダ学習法および潜在コード最適化技術を開発した。Anycost GANは、最大10倍の計算量削減を実現しつつ、幅広いハードウェア環境および遅延要件に適応可能である。デスクトップCPUおよびエッジデバイス上にデプロイした場合、本モデルは6〜12倍の高速化を達成しつつ、視覚的に類似したプレビューを提供し、インタラクティブな画像編集を可能にする。コードおよびデモは公開されており、以下のURLから入手可能である:https://github.com/mit-han-lab/anycost-gan。