9日前

連続的な手話認識のための多状態サイン語の確率的細粒度ラベル付け

{Brian Mak, Zhe Niu}
連続的な手話認識のための多状態サイン語の確率的細粒度ラベル付け
要約

本稿では、Transformerエンコーダと接続主義的時系列分類(CTC)に基づく連続日本語手話認識(CSLR)システムのさまざまな構成要素に対して、新たな確率的モデリングを提案する。特に重要な点として、各手話語彙(gloss)を複数の状態で表現し、状態数を学習可能な確率分布に従うカテゴリカルな確率変数としてモデル化することで、CTCデコーダの学習にための確率的かつ細粒度なラベルを提供する。さらに、TransformerモデルにおけるCTC損失を用いた学習における深刻な過学習問題に対処するため、確率的フレームドロップ機構と勾配停止手法を提案する。これらの手法は、計算時間およびメモリ使用量の両面で学習計算量を大幅に削減する効果も持つ。提案手法は、代表的なCSLRデータセット上で評価され、最先端手法と比較して有効性が示された。