16日前

物理的インスパイラ・ディンスフィュージョンネットワークを用いたリライト

Amirsaeed Yazdani, Tiantong Guo, Vishal Monga
物理的インスパイラ・ディンスフィュージョンネットワークを用いたリライト
要約

画像の再照明(Image relighting)は、拡張現実(AR)応用に触発されて、近年注目される重要な研究課題となっている。物理ベースの従来手法とブラックボックス型の深層学習モデルが開発されてきた。既存の深層ネットワークは学習を活用して新たな最先端の性能を達成しているが、学習データが限られている場合や、問題の物理現象(たとえば、濃い影の追加や削除)を適切に表現できない場合には、性能が低下する可能性がある。本研究では、神経ネットワークに物理的知見を組み込むモデルを提案する。具体的には、新しい照明条件下での再照明画像を生成するための2つの異なる戦略を用い、その後重みマップ(w)を用いてそれらを融合する。第一の戦略では、再照明画像の材質反射率パラメータ(アルベド)およびシーンの照明・幾何情報(シャドウ)を推定する「内在画像分解(Intrinsic Image Decomposition: IID)」を採用する。第二の戦略は、ブラックボックス型アプローチに従い、学習段階で真値画像と損失関数に基づいてモデルの重みを最適化し、直接再照明出力を生成する(これを「直接法(Direct)」と呼ぶ)。本提案手法は、1対1の再照明問題と任意の照明間の再照明問題(any-to-any)の両方に適用可能であるが、それぞれの問題に特化した構成要素を導入することでモデル性能を向上させている。具体的には、1対1再照明の場合は、シーン内の表面法線ベクトルを組み込み、画像内の光沢および影の調整を適切に行う。一方、任意の照明間再照明の場合は、特徴抽出能力を強化するため、アーキテクチャに追加のマルチスケールブロックを導入する。VIDIT 2020およびVIDIT 2021データセット(NTIRE 2021再照明チャレンジで使用)における実験結果から、本手法が、代表的な忠実度指標および知覚損失(perceptual loss)の観点で、多数の最先端手法を上回ることを確認した。

物理的インスパイラ・ディンスフィュージョンネットワークを用いたリライト | 最新論文 | HyperAI超神経