Command Palette
Search for a command to run...
OmniShow:面向人机交互(Human-Object Interaction)视频生成的统一多模态 Condition 框架
OmniShow:面向人机交互(Human-Object Interaction)视频生成的统一多模态 Condition 框架
概要
本研究では、テキスト、参照画像、オーディオ、およびポーズ(pose)を条件として、高品質な「人間と物体の相互作用(Human-Object Interaction)」動画を合成することを目的とした「Human-Object Interaction Video Generation (HOIVG)」について検討する。このタスクは、ECサイトのデモンストレーション、ショート動画制作、インタラクティブ・エンターテインメントといった実世界のアプリケーションにおいて、コンテンツ制作を自動化するという観点から、極めて高い実用価値を有している。しかしながら、既存の手法では、これら全ての必須条件を統合的に扱うことができていない。そこで本稿では、この実用的かつ困難なタスクに特化したエンドツーエンド(end-to-end)のフレームワークである「OmniShow」を提案する。OmniShowは、マルチモーダルな条件を調和させ、業界水準(industry-grade)のパフォーマンスを実現することが可能である。可制御性(controllability)と品質のトレードオフを克服するため、我々は画像およびposeを効率的に注入する「Unified Channel-wise Conditioning」と、精密な音響・視覚同期を保証する「Gated Local-Context Attention」を導入した。また、データの不足(data scarcity)に効果的に対処するため、モデルマージ(model merging)を用いた多段階の学習プロセスにより、ヘテロジニアス(heterogeneous)なサブタスクのデータセットを効率的に活用する「Decoupled-Then-Joint Training」戦略を開発した。さらに、この分野における評価手法の欠如を補うため、HOIVGに特化した包括的なベンチマークである「HOIVG-Bench」を構築した。広範な実験の結果、OmniShowは様々なマルチモーダル条件の設定において、全体的に最先端(state-of-the-art)の性能を達成しており、新興のHOIVGタスクにおける強固な基準を確立した。