概要

本研究では、テキスト、参照画像、オーディオ、およびポーズ（pose）を条件として、高品質な「人間と物体の相互作用（Human-Object Interaction）」動画を合成することを目的とした「Human-Object Interaction Video Generation (HOIVG)」について検討する。このタスクは、ECサイトのデモンストレーション、ショート動画制作、インタラクティブ・エンターテインメントといった実世界のアプリケーションにおいて、コンテンツ制作を自動化するという観点から、極めて高い実用価値を有している。しかしながら、既存の手法では、これら全ての必須条件を統合的に扱うことができていない。そこで本稿では、この実用的かつ困難なタスクに特化したエンドツーエンド（end-to-end）のフレームワークである「OmniShow」を提案する。OmniShowは、マルチモーダルな条件を調和させ、業界水準（industry-grade）のパフォーマンスを実現することが可能である。可制御性（controllability）と品質のトレードオフを克服するため、我々は画像およびposeを効率的に注入する「Unified Channel-wise Conditioning」と、精密な音響・視覚同期を保証する「Gated Local-Context Attention」を導入した。また、データの不足（data scarcity）に効果的に対処するため、モデルマージ（model merging）を用いた多段階の学習プロセスにより、ヘテロジニアス（heterogeneous）なサブタスクのデータセットを効率的に活用する「Decoupled-Then-Joint Training」戦略を開発した。さらに、この分野における評価手法の欠如を補うため、HOIVGに特化した包括的なベンチマークである「HOIVG-Bench」を構築した。広範な実験の結果、OmniShowは様々なマルチモーダル条件の設定において、全体的に最先端（state-of-the-art）の性能を達成しており、新興のHOIVGタスクにおける強固な基準を確立した。

ソースPDF コードを表示