6ヶ月前

コンピュータビジョン

ディープラーニング

画像間変換

マルチモーダル

コンピュータビジョン

Songhua Liu Tianwei Lin Dongliang He Fu Li Ruifeng Deng Xin Li Errui Ding Hao Wang

概要

ニューラルペインティングとは、与えられた画像に対して一連の筆致（ストローク）を生成し、ニューラルネットワークを用いて非写実的な再現を行うプロセスを指す。従来、強化学習（RL）に基づくエージェントを用いてこのタスクを段階的にストローク列を生成する方法が提案されてきたが、安定したRLエージェントを訓練することは容易ではない。一方、ストローク最適化手法は、大きな探索空間内でストロークパラメータの集合を反復的に探索するが、その低効率性が広範な適用と実用性を著しく制限している。本研究では、これらの従来手法とは異なり、このタスクを集合予測問題として定式化し、前向き伝搬ネットワークを用いてストローク集合のパラメータを予測する新しいTransformerベースのフレームワーク「Paint Transformer」を提案する。このアプローチにより、モデルは並列的に一連のストロークを生成し、512×512サイズの最終的な絵画をほぼリアルタイムで得ることが可能となる。さらに重要な点として、Paint Transformerの訓練に使用可能な既存データセットが存在しないため、あらゆる汎用データセットを必要とせずに、優れた汎化能力を維持しつつ学習可能な自己学習パイプラインを設計した。実験の結果、本手法は従来手法よりも優れたペインティング性能を達成するとともに、訓練および推論コストも低く抑えられていることが示された。コードとモデルは公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

ディープラーニング

画像間変換

マルチモーダル

コンピュータビジョン

Songhua Liu Tianwei Lin Dongliang He Fu Li Ruifeng Deng Xin Li Errui Ding Hao Wang

概要

ニューラルペインティングとは、与えられた画像に対して一連の筆致（ストローク）を生成し、ニューラルネットワークを用いて非写実的な再現を行うプロセスを指す。従来、強化学習（RL）に基づくエージェントを用いてこのタスクを段階的にストローク列を生成する方法が提案されてきたが、安定したRLエージェントを訓練することは容易ではない。一方、ストローク最適化手法は、大きな探索空間内でストロークパラメータの集合を反復的に探索するが、その低効率性が広範な適用と実用性を著しく制限している。本研究では、これらの従来手法とは異なり、このタスクを集合予測問題として定式化し、前向き伝搬ネットワークを用いてストローク集合のパラメータを予測する新しいTransformerベースのフレームワーク「Paint Transformer」を提案する。このアプローチにより、モデルは並列的に一連のストロークを生成し、512×512サイズの最終的な絵画をほぼリアルタイムで得ることが可能となる。さらに重要な点として、Paint Transformerの訓練に使用可能な既存データセットが存在しないため、あらゆる汎用データセットを必要とせずに、優れた汎化能力を維持しつつ学習可能な自己学習パイプラインを設計した。実験の結果、本手法は従来手法よりも優れたペインティング性能を達成するとともに、訓練および推論コストも低く抑えられていることが示された。コードとモデルは公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ペインティングトランスフォーマー：ストローク予測を用いたフィードフォワードニューラルペインティング | 記事 | HyperAI超神経