2ヶ月前

TDSM: トリプレット拡散によるゼロショット行動認識における骨格-テキストマッチング

Jeonghyeok Do; Munchurl Kim
TDSM: トリプレット拡散によるゼロショット行動認識における骨格-テキストマッチング
要約

まず、ゼロショット学習を用いた骨格入力に基づく拡散型行動認識を提案します。ゼロショットの骨格ベース行動認識では、骨格特徴と行動ラベルのテキスト特徴との整合性が未見の行動を正確に予測するために重要です。これまでの手法は、主に骨格とテキストの潜在空間間の直接的な整合性に焦点を当てていますが、これらの空間間のモダリティギャップが堅牢な汎化学習を阻害しています。テキストから画像への拡散モデルが示した優れた性能に着目し、生成能力ではなく逆拡散過程における訓練プロセスに焦点を当てることで、異なるモダリティ間での整合性能力を利用します。これに基づいて、我々のフレームワークは、逆拡散を通じて骨格特徴とテキストプロンプトを整列させ、プロンプトを統合された骨格-テキスト潜在空間に埋め込むことで堅牢なマッチングを実現する Triplet Diffusion for Skeleton-Text Matching (TDSM) メソッドとして設計されています。識別力を向上させるため、新たな triplet diffusion (TD) 損失関数を導入し、TDSM が正しい骨格-テキストマッチングを行いつつ誤ったマッチングを遠ざけるよう促します。我々の TDSM は最新の最先端手法に対して大幅に優れ、2.36%ポイントから13.05%ポイントの大差で上回り、効果的な骨格-テキストマッチングによりゼロショット設定において優れた精度とスケーラビリティを示しています。

TDSM: トリプレット拡散によるゼロショット行動認識における骨格-テキストマッチング | 最新論文 | HyperAI超神経