
要約
バックワードワーピングとしての微分可能な画像サンプリングは、深度推定やオプティカルフロー予測などのタスクにおいて広く採用されてきた。一方で、フォワードワーピングの実装についてはそれほど注目されておらず、その理由の一つとして、複数のソースピクセルが同じターゲット位置にマッピングされるという状況を微分可能かつ一貫性のある方法で処理するという追加の課題があるためである。本研究では、このパラダイムの転換に対応するため、ソフトマックススプラッティング(softmax splatting)を提案し、フレーム補間への応用においてその有効性を示す。具体的には、2つの入力フレームに対して、オプティカルフローの推定値に基づき、ソフトマックススプラッティングを用いてフレームおよびその特徴ピラミッド表現をフォワードワーピングする。この際、複数のソースピクセルが同じターゲット位置にマッピングされるような状況も、ソフトマックススプラッティングによって自然かつ滑らかに処理できる。その後、変換された表現から合成ネットワークを用いて補間結果を予測する。本手法により、任意の時間におけるフレーム補間だけでなく、特徴ピラミッドおよびオプティカルフローの微調整も可能となる。実験の結果、ソフトマックススプラッティングを活用した本合成アプローチは、動画フレーム補間において新たな最先端(SOTA)の性能を達成した。