9日前

TCNet:軌道と相関領域からの連続的サイン言語認識

Hui Lu, Albert Ali Salah, Ronald Poppe
TCNet:軌道と相関領域からの連続的サイン言語認識
要約

連続手話認識(CSLR)における主要な課題の一つは、動画入力から時間的に長距離にわたる空間的相互作用を効率的に捉えることである。この課題に対処するために、本研究では軌跡(Trajectories)と相関領域(Correlated regions)から空間時系列情報を効果的にモデル化できるハイブリッドネットワークであるTCNetを提案する。TCNetの軌跡モジュールは、フレームを連続する視覚トークンから構成される整合された軌跡に変換する。さらに、クエリトークンに対して、その軌跡に沿った自己注意(self-attention)を学習する。これにより、特定の領域における細粒度な空間時系列パターン、たとえば指の動きなども正確に捉えることが可能となる。また、TCNetの相関モジュールは、新たな動的注意機構を採用しており、関係のないフレーム領域を効果的にフィルタリングする。さらに、相関領域から動的キーバリュー(key-value)トークンを各クエリに割り当てる。これらの革新により、計算コストとメモリ使用量が著しく削減される。本研究では、PHOENIX14、PHOENIX14-T、CSL、CSL-Dailyの4つの大規模データセットを用いて実験を実施した。実験結果から、TCNetが一貫して最先端の性能を達成することが示された。特に、PHOENIX14およびPHOENIX14-Tにおいて、従来の最先端手法より語誤り率(WER)をそれぞれ1.5%、1.0%改善した。