
要約
会話的ジェスチャー生成は、音声に合ったジェスチャーを合成することを目的とする実用的でありながらも困難なタスクである。意味のあるサインを含むジェスチャーは、より効果的に情報を伝達し、聴衆の共感を引き出すことができる。現在の研究は主に音声のリズムとジェスチャーを一致させることに注力しているが、これでは意味情報の抽出が難しく、意味的なジェスチャーを明示的にモデル化することが困難である。本論文では、意味認識を意識したジェスチャー生成を実現するため、新たな手法である「Semantic Energized Generation(SEEG)」を提案する。本手法は、2つのモジュールから構成される:デカップリングマイニングモジュール(DEM)と意味エネルギー化モジュール(SEM)。DEMは入力から意味に関連しない情報を分離し、ビートジェスチャーと意味ジェスチャーの両方について別々に情報を抽出する。SEMは意味学習を実行し、意味的なジェスチャーを生成する。表現的類似性に加え、SEMは予測結果が真値と同一の意味を表現していることを要求する。さらに、SEM内に意味認識を促進するための「意味プロンプター」を設計し、予測に対して意味認識に基づく監視を導入することで、ネットワークが意味的なジェスチャーの学習と生成をより効果的に行えるようにしている。異なるベンチマーク上で3つの評価指標を用いた実験結果から、SEEGが効果的に意味的ヒントを抽出し、意味的なジェスチャーを生成できることを示した。他の手法と比較して、異なるデータセット上で意味認識評価においてすべての指標で優れた性能を発揮した。定性的評価結果も、SEEGが意味表現力において優れていることを裏付けている。