HyperAIHyperAI

Command Palette

Search for a command to run...

動画とテキスト埋め込みのクロスモーダルアライメントを用いた、Joint-Latent空間における連続手話認識

Petros Daras DIMITRIOS KONSTANTINIDIS Kosmas Dimitropoulos Ilias Papastratis

概要

連続手話認識(Continuous Sign Language Recognition: CSLR)とは、弱教師付きの動画シーケンスから手話のグロス(gloss)およびその時間的境界を認識するという困難な課題を指す。従来の手法は視覚特徴の抽出に主眼を置いており、テキスト情報の活用を軽視し、グロス内での依存関係を効果的にモデル化できていなかった。本研究では、テキスト情報を活用して視覚ベースのCSLRを向上させるためのクロスモーダル学習アプローチを提案する。具体的には、まず強力な符号化ネットワークを2つ用いて、動画およびテキストの埋め込み表現を生成し、それらを統合された潜在表現空間にマッピング・アライメントする。提案するクロスモーダルアライメントの目的は、グロス内依存関係のモデリングおよびCSLRに適したより記述力豊かな動画ベースの潜在表現の構築にある。提案手法は、動画およびテキストの潜在表現を統合的に学習する。最終的に、アライメントされた動画の潜在表現を、統合的に訓練されたデコーダーを用いて分類する。3つの代表的な手話認識データセットにおける広範な実験および最先端手法との比較により、本手法の高い潜在能力が実証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
動画とテキスト埋め込みのクロスモーダルアライメントを用いた、Joint-Latent空間における連続手話認識 | 記事 | HyperAI超神経