2ヶ月前
ガイデッドアテンションを用いた解釈可能な動作キャプショニング
Radouane, Karim ; Lagarde, Julien ; Ranwez, Sylvie ; Tchechmedjiev, Andon

要約
最近、テキスト条件付きの人間の動作生成に関する多様かつ広範な研究が行われています。しかし、その逆方向である動作キャプショニングについては、比較的に進展が遅れています。本論文では、空間時間的および適応的な注意メカニズムを強調することで解釈可能性を高め、テキスト生成の品質を向上させる新しいアーキテクチャ設計を提案します。人間らしい推論を促すために、学習中に注意を誘導する方法を提案し、時間とともに関連する骨格領域に焦点を当てるとともに、動作に関連する単語を区別することを重視します。また、当モデルの解釈可能性について関連するヒストグラムと密度分布を使用して議論し、定量的に評価します。さらに、解釈可能性を利用して人間の動作に関する細かい情報を導き出すことで、アクションの局所化や身体部位の識別、動作に関連する単語の区別などの課題に取り組みます。最後に、当アプローチが他のタスクへの転用可能性について議論します。実験結果は、注意誘導が解釈可能なキャプショニングにつながりつつ、パラメータ数が多い非解釈可能な最先端システムよりも性能が向上することを示しています。コードは以下のURLで公開されています: https://github.com/rd20karim/M2T-Interpretable.