Command Palette

Search for a command to run...

21日前

UniLumos:物理的に妥当なフィードバックを用いた高速かつ統一的な画像・動画の再照明

Ropeway Liu Hangjie Yuan Bo Dong Jiazheng Xing Jinwang Wang Rui Zhao Yan Xing Weihua Chen Fan Wang

UniLumos:物理的に妥当なフィードバックを用いた高速かつ統一的な画像・動画の再照明

要約

リライト(再照明)は、実用的要請と芸術的価値の両方を備えた重要なタスクであり、近年の拡散モデルは、豊かで制御可能な照明効果を実現する上で大きな可能性を示している。しかし、これらのモデルは通常、意味的潜在空間(semantic latent space)で最適化されるため、視覚空間における物理的正しさを保証するものではない。その結果、過剰に明るいハイライト、ずれた影、不正確な隠蔽(オクルージョン)など、現実的でない結果が頻発する。本研究では、画像および動画の両方に対応する統一的なリライトフレームワーク「UniLumos」を提案する。この手法は、フローマッチング(flow matching)の基盤にRGB空間における幾何学的フィードバックを導入することで、照明効果とシーン構造の明示的な整合性を実現する。具体的には、モデルの出力から抽出した深度マップおよび法線マップを用いて監督学習を行うことで、物理的妥当性を高める。しかしながら、このフィードバックは視覚空間における高品質な出力が必要となるため、従来の多段階ノイズ除去(denoising)は計算コストが高くなる。これを緩和するため、パス一貫性学習(path consistency learning)を採用し、少数ステップでの学習でも効果的な監督が可能となる。さらに、細粒度なリライト制御と監督を可能にするため、照明の主要な属性を捉える六次元構造化アノテーションプロトコルを設計した。この基盤の上に、属性レベルで分離された評価を可能にする「LumosBench」というベンチマークを提案。大規模な視覚言語モデル(vision-language models)を用いて、各属性ごとのリライト精度を自動かつ解釈可能な形で評価する。広範な実験により、UniLumosが物理的整合性を大幅に向上させつつ、最先端のリライト品質を達成し、画像および動画のリライト処理において20倍の高速化を実現したことが示された。コードは https://github.com/alibaba-damo-academy/Lumos-Custom で公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UniLumos:物理的に妥当なフィードバックを用いた高速かつ統一的な画像・動画の再照明 | 論文 | HyperAI超神経