概要

最近の進展にもかかわらず、既存のフレーム補間手法は極めて高解像度の入力処理や反復テクスチャ、細い物体、大規模な動きなどの難易度の高いケースに対処するのに苦労しています。これらの問題を解決するために、我々は高解像度フレーム補間に優れたパッチベースの段階的ピクセル拡散モデルであるHiFIを提案します。このモデルは標準的なベンチマークでも競争力のある性能を達成しつつ、これらのシナリオで優れた結果を示します。段階的なプロセスでは、低解像度から高解像度へと一連の画像を生成することで、大規模または複雑な動きに対応することができます。これは全体的なコンテキストが必要な粗い解と詳細なコンテキストが必要な高解像度出力を両方提供します。しかし、従来の段階的拡散モデルが徐々に大きな解像度で拡散を行うのとは異なり、我々は常に同じ解像度で拡散を行いながら入力と事前ソリューションのパッチを処理してアップサンプリングを行う単一モデルを使用しています。推論時にはこれによりメモリ使用量が大幅に削減され、フレーム補間（基本モデルのタスク）と空間アップサンプリングを同時に解決できるため、訓練コストも節約できます。HiFIは高解像度画像や全体的なコンテキストが必要な複雑な反復テクスチャに優れており、 Vimeo, Xiph, X-Test, および SEPE-8Kなど様々なベンチマークで同等または最先端の性能を達成しています。さらに、特に困難なケースに焦点を当てた新しいデータセットLaMoRを導入し、HiFIは他の基準モデルに対して大幅に優れた性能を示しています。ビデオ結果についてはプロジェクトページをご覧ください: https://hifi-diffusion.github.io

ソースPDF