
要約
我々は、顔画像から得られるコンテンツコードとランダムに選ばれたスタイルコードを入力として、アニメ画像を出力する写像を学習する方法を提示する。本手法では、シンプルかつ効果的なスタイルおよびコンテンツの定義に基づき、対抗的損失(adversarial loss)を導出する。この対抗的損失により、写像は多様性を保証され、一つのコンテンツコードから非常に広範なアニメスタイルを生成可能となる。妥当な仮定の下では、この写像は多様性に加え、入力された顔画像を条件としたアニメ画像の確率分布を正しく表現していることも示される。これに対し、現在の多モーダル生成手法はアニメに見られる複雑なスタイルを捉えることができない。広範な定量的実験により、この写像が正しく機能していることが裏付けられている。また、定性的な結果では、最先端(SOTA)の手法と比較して、はるかに多様なスタイルの生成が可能であることが示されている。さらに、本研究で提示するコンテンツとスタイルの形式化により、動画データの学習を一切行わずに、動画から動画への変換(video-to-video translation)を実現できることを示した。