8ヶ月前

概要

本論文では、動作から言語への翻訳および同期化のためのシーケンス・ツー・シーケンスアーキテクチャの構築について調査しています。目的は、モーションキャプチャ入力を英語の自然言語説明に翻訳し、その説明が実行される動作と同時に生成されることで、意味的セグメンテーションを副産物として得ることです。ただし、同期した訓練データを必要とせずにこれを達成することを目指しています。我々は、同期/ライブテキスト生成に適した新しい再帰的な局所注意機構（local attention）の定式化を提案します。また、より少ないデータや同期生成に適した改良された動作エンコーダアーキテクチャも提案します。これらの貢献について、個別の実験で評価を行いました。評価には標準的なBLEU4指標と単純な意味的同等性測定を使用し、KITモーション言語データセット上で実施しました。後続の実験では、提案手法によって生成されたテキストの同期品質を複数の評価指標を通じて評価しました。結果として、注意機構とエンコーダアーキテクチャへの両方の貢献が生成テキストの品質（BLEUおよび意味的同等性）だけでなく、同期精度も加算的に向上させていることが確認されました。コードは以下のURLで公開されています。https://github.com/rd20karim/M2T-Segmentation/tree/main

ソースPDF コードを表示