9日前

卵を割らずしてオムレツを作ることはできない：大規模な動画言語モデルを用いた妥当な行動予測

Himangi Mittal, Nakul Agarwal, Shao-Yuan Lo, Kwonjoon Lee

要約

我々は、現実世界においてあり得る行動シーケンスを予測するための大型動画・言語モデル「PlausiVL」を提案する。これまでに、未来の行動を予測するための多くの研究が進められてきたが、従来のアプローチは行動シーケンスにおける「あり得る性（plausibility）」という側面を十分に考慮していなかった。この限界を克服するため、本研究では大型動画・言語モデルの生成能力を活用し、行動シーケンスの「あり得る性」をより深く理解するための2つの目的関数を導入する。1つは、反事実（counterfactual）に基づくあり得る行動シーケンス学習損失（plausible action sequence learning loss）、もう1つは長期視野における行動の繰り返しを抑える損失（long-horizon action repetition loss）である。本研究では、時間的論理制約および動詞・名詞からなる行動ペアの論理制約を用いて、非現実的または反事実的な行動シーケンスを生成し、それらを用いてあり得る行動シーケンス学習損失でモデルを学習させる。この損失関数により、モデルはあり得る行動シーケンスとそうでないものを区別する能力を獲得するとともに、行動予測というタスクにおいて重要な内在的な時間的手がかりを学習することができる。また、長期視野における行動繰り返し損失は、時間的に長い窓幅において繰り返しやすい行動に対して高いペナルティを課すことで、モデルが多様かつあり得る行動シーケンスを生成する能力を向上させる。我々は、大規模な2つのデータセットであるEgo4DおよびEPIC-Kitchens-100上で本手法を評価し、行動予測タスクにおいて既存手法を上回る性能を示した。