HyperAIHyperAI

Command Palette

Search for a command to run...

C2SLR:一貫性向上型連続日本手話認識

Brian Mak Ronglai Zuo

概要

大多数深層学習に基づく連続手話認識(CSLR)モデルの基盤は、視覚モジュール、順序処理モジュール、およびアライメントモジュールから構成される。しかし、このようなCSLRの基盤構造は、単一の接続主義的時系列分類(CTC)損失関数のみでは十分な学習が困難である。本研究では、一貫性の観点からCSLR基盤の性能を向上させるため、2つの補助的制約を提案する。第一の制約は、学習が不十分になりがちな視覚モジュールの強化を目的としている。具体的には、手話が主に signer の顔および手の動きによって情報伝達される点に着目し、視覚モジュール内にキーポイント誘導型空間的注目モジュールを導入することで、情報量の多い領域に注目させる、すなわち空間的注目の一貫性を強制する。しかし、視覚モジュールのみの強化では、基盤全体の潜在能力を十分に引き出すことはできない。そこで、視覚モジュールと順序処理モジュールの出力特徴量がともに同一の文を表しているという点に着目し、両モジュール間における文埋め込みの一貫性制約を追加することで、両者の表現力の向上を図る。3つの代表的な基盤構造を用いた実験により、本提案の2つの制約が有効であることが検証された。特に、Transformerベースの基盤を用いた場合、PHOENIX-2014、PHOENIX-2014-T、CSLの3つのベンチマークにおいて、最先端または競争力のある性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
C2SLR:一貫性向上型連続日本手話認識 | 記事 | HyperAI超神経