
要約
畳み込みニューラルネットワークに基づく画像スタイル転送モデルは、ビデオに適用される場合、通常時間的な一貫性が低いという問題を抱えています。いくつかのビデオスタイル転送モデルが提案され、時間的一貫性を改善する試みがなされていますが、これらのモデルは高速処理速度、良好な知覚的スタイル品質、および高い時間的一貫性を同時に保証することはできていません。本論文では、新しいリアルタイムビデオスタイル転送モデルであるReCoNet(Real-time Coherent Network)を提案します。このモデルは、好ましい知覚的スタイルを維持しながら、時間的に一貫したスタイル転送ビデオを生成することができます。出力レベルでの新しい輝度歪曲制約を時間的損失に追加することで、連続フレーム間の輝度変化を捉え、照明効果によるスタイリゼーションの安定性を向上させます。また、トレーサブルな物体に対する時間的一貫性をさらに強化するために、特徴マップレベルでの新しい時間的損失も提案しています。実験結果は、当社のモデルが定性的にも定量的にも優れた性能を示していることを示しています。