17日前

ペインティングトランスフォーマー:ストローク予測を用いたフィードフォワードニューラルペインティング

Songhua Liu, Tianwei Lin, Dongliang He, Fu Li, Ruifeng Deng, Xin Li, Errui Ding, Hao Wang
ペインティングトランスフォーマー:ストローク予測を用いたフィードフォワードニューラルペインティング
要約

ニューラルペインティングとは、与えられた画像に対して一連の筆致(ストローク)を生成し、ニューラルネットワークを用いて非写実的な再現を行うプロセスを指す。従来、強化学習(RL)に基づくエージェントを用いてこのタスクを段階的にストローク列を生成する方法が提案されてきたが、安定したRLエージェントを訓練することは容易ではない。一方、ストローク最適化手法は、大きな探索空間内でストロークパラメータの集合を反復的に探索するが、その低効率性が広範な適用と実用性を著しく制限している。本研究では、これらの従来手法とは異なり、このタスクを集合予測問題として定式化し、前向き伝搬ネットワークを用いてストローク集合のパラメータを予測する新しいTransformerベースのフレームワーク「Paint Transformer」を提案する。このアプローチにより、モデルは並列的に一連のストロークを生成し、512×512サイズの最終的な絵画をほぼリアルタイムで得ることが可能となる。さらに重要な点として、Paint Transformerの訓練に使用可能な既存データセットが存在しないため、あらゆる汎用データセットを必要とせずに、優れた汎化能力を維持しつつ学習可能な自己学習パイプラインを設計した。実験の結果、本手法は従来手法よりも優れたペインティング性能を達成するとともに、訓練および推論コストも低く抑えられていることが示された。コードとモデルは公開されている。