11日前

テキスト記述からのロール認識型インタラクション生成

{Kent Fujiwara, Mikihiro Tanaka}
テキスト記述からのロール認識型インタラクション生成
要約

本研究は、テキスト記述に対応する2人の人物アクター間のインタラクションを生成する問題に取り組む。我々は、特定のインタラクション—いわゆる非対称インタラクション—において、アクターとレシーバーの間に一方向的な関係が存在し、それぞれの役割に応じて動きが著しく異なることを指摘する。しかし、従来のインタラクション生成研究は、両アクターの動きを統合して扱う単一のラベルとの対応関係を学習することに焦点を当てており、個々の役割の違いを無視している。そこで、生成前に役割を明示できる「役割認識型インタラクション生成」という新たな課題を提唱する。非対称インタラクションのテキストを、能動態と受動態に変換することで、各役割に応じた文脈の整合性を保証する。本研究では、指定された役割の動きを生成するモデルを提案し、それらが互いに整合性を持つインタラクションを形成するように学習させる。モデルが個々の動きを別々に扱うため、単一人物の動きデータから事前学習を可能とし、より正確なインタラクションの生成が可能となる。さらに、追加のアノテーションなしに、2つの行動のうちどちらがアクターか、レシーバーかを自動で学習できる、Permutation Invariant Training(PIT)に着想を得た手法を導入する。また、従来の評価指標が生成されたインタラクションの品質を正確に評価できない事例を提示し、その課題を解決するための新規指標「相互整合性(Mutual Consistency)」を提案する。実験結果により、本手法の有効性および提案指標の必要性が確認された。本研究のコードは、https://github.com/line/Human-Interaction-Generation にて公開されている。

テキスト記述からのロール認識型インタラクション生成 | 最新論文 | HyperAI超神経