HyperAIHyperAI

Command Palette

Search for a command to run...

ガイデッドアテンションを用いた解釈可能な動作キャプショニング

Karim Radouane Julien Lagarde Sylvie Ranwez Andon Tchechmedjiev

概要

最近、テキスト条件付きの人間の動作生成に関する多様かつ広範な研究が行われています。しかし、その逆方向である動作キャプショニングについては、比較的に進展が遅れています。本論文では、空間時間的および適応的な注意メカニズムを強調することで解釈可能性を高め、テキスト生成の品質を向上させる新しいアーキテクチャ設計を提案します。人間らしい推論を促すために、学習中に注意を誘導する方法を提案し、時間とともに関連する骨格領域に焦点を当てるとともに、動作に関連する単語を区別することを重視します。また、当モデルの解釈可能性について関連するヒストグラムと密度分布を使用して議論し、定量的に評価します。さらに、解釈可能性を利用して人間の動作に関する細かい情報を導き出すことで、アクションの局所化や身体部位の識別、動作に関連する単語の区別などの課題に取り組みます。最後に、当アプローチが他のタスクへの転用可能性について議論します。実験結果は、注意誘導が解釈可能なキャプショニングにつながりつつ、パラメータ数が多い非解釈可能な最先端システムよりも性能が向上することを示しています。コードは以下のURLで公開されています: https://github.com/rd20karim/M2T-Interpretable.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています