18日前

MOMA-LRG:マルチオブジェクト・マルチアクタ活動解析のための言語精製グラフ

{Fei-Fei Li, Ehsan Adeli, Juan Carlos Niebles, Jiajun Wu, Lun Yu Li, Zhuoyi Huang, Emily Jin, Ruochen Liu, Wanze Xie, Linden Li, Zane Durante, Zelun Luo}
MOMA-LRG:マルチオブジェクト・マルチアクタ活動解析のための言語精製グラフ
要約

動画・言語モデル(VLMs)は、インターネットから取得した多数のノイズを含む動画・テキストペアを事前学習することで、優れた汎化能力およびオープンボリューム(開口型)表現能力を備え、行動認識分野に革命をもたらした。しかし、複雑な人間の行動はしばしば階層的かつ構成的な性質を持つ一方で、現在のVLM評価タスクの多くは高レベルの動画理解に限定されており、複雑かつ細分化された人間行動を正確に評価・解釈する能力を十分に測定することが難しい。最近提案されたMOMAフレームワークに着想を得て、本研究では、行動、サブ行動、原子的行動という3レベルの動画理解を統合する単一の普遍的表現として「行動グラフ(activity graph)」を定義する。さらに、行動パーシング(activity parsing)を、この3レベルすべてにおいて人間行動を理解することを要する、行動グラフ生成という包括的なタスクとして再定義する。モデル評価を促進するため、自然言語文に容易に変換可能な行動グラフアノテーションを備えた、複雑な人間行動を対象とした大規模データセット「MOMA-LRG(Multi-Object Multi-Actor Language-Refined Graphs)」を導入する。最後に、行動グラフから得られる構造的知識をVLMに統合することで、言語モデルとグラフィカルモデルそれぞれの限界を補う、モデル非依存的かつ軽量なVLMの適応・評価手法を提案する。本手法は、少サンプル(few-shot)行動パーシングにおいて優れた性能を示しており、今後の動画、グラフ、言語の統合モデリングに関する研究を促進することを目的としている。