
要約
画像から画像への翻訳(Image-to-image, I2I)翻訳は、コンピュータビジョン分野における困難な課題の一つである。本研究では、この問題を三つのタスクに分類する:強制的制約付き翻訳、通常の制約付き翻訳、弱い制約付き翻訳。ここでいう「制約」とは、元の画像に含まれるコンテンツや意味情報がどれだけ保持されるかという度合いを指す。従来の手法は、弱い制約付きタスクにおいて良好な性能を達成しているが、強制的および通常の制約付きタスク(例えば、写真レベルのリアルな画像生成、スタイル転送、色付けなど)において、コンテンツの完全な保持に失敗している。強制的および通常の制約付きタスクにおいてコンテンツを保持した翻訳を実現するために、我々は、正規化フロー(normalizing flows)と新規のスタイル認識正規化(Style-Aware Normalization, SAN)モジュールを組み合わせた新しいI2I翻訳モデル「StyleFlow」を提案する。可逆ネットワーク構造を採用することで、StyleFlowは前向き伝搬において入力画像を深層特徴空間に写像する一方、逆向き伝搬ではSANモジュールを用いてコンテンツ固定型の特徴変換を行い、再び画像空間に投影する。本モデルは、画像ガイド付き翻訳およびマルチモーダル合成の両方をサポートする。複数のI2I翻訳ベンチマークでの評価結果から、提案モデルが従来手法に比べて、強制的および通常の制約付きタスクにおいて優れた性能を発揮することが明らかになった。