17日前

AQ-GT:時系列整合かつ量子化されたGRU-Transformerを用いた共話ジェスチャー合成

Hendric Voß, Stefan Kopp
AQ-GT:時系列整合かつ量子化されたGRU-Transformerを用いた共話ジェスチャー合成
要約

共話ジェスチャーの現実的かつ文脈的に適切な生成は、マルチモーダル人工エージェントの構築において、困難ではあるがますます重要な課題である。従来の手法は、共話ジェスチャーの表現と生成された動きの間に直接的な対応関係を学習することに注力してきたが、人間による評価において、見た目は自然に思えるものの、しばしば説得力に欠けるジェスチャーが生成されるという問題があった。本研究では、符号化パイプラインを用いた生成的敵対ネットワーク(GAN)を活用して、部分的なジェスチャー列の事前学習を行うアプローチを提案する。得られたコードブックベクトルは、本フレームワークにおいて入力と出力の両方として機能し、ジェスチャーの生成と再構成の基盤を形成する。本フレームワークは、ベクトル表現に直接対応させるのではなく、潜在空間表現のマッピングを学習することで、人間の動きや行動を極めてリアルかつ表現力豊かに再現するジェスチャーの生成を可能にするとともに、生成プロセスにおけるアーティファクトの発生を回避する。提案手法の有効性を、既存の共話ジェスチャー生成手法および人間行動に関する既存データセットとの比較を通じて評価した。さらに、アブレーションスタディを実施し、各モジュールの寄与を検証した。その結果、本手法は現在の最先端技術を明確な差で上回り、人間のジェスチャーと部分的に区別がつかない水準に達していることが示された。本研究で開発したデータパイプラインおよび生成フレームワークは、公開している。

AQ-GT:時系列整合かつ量子化されたGRU-Transformerを用いた共話ジェスチャー合成 | 最新論文 | HyperAI超神経