
手と顔は、手話の表現において重要な役割を果たす。そのため、従来の手法では、システム性能の向上を目的として、これらの部位の特徴を特に強調するアプローチが採用されてきた。しかし、手と顔の視覚的表現を効果的に抽出し、その軌道を捉えるためには、計算量が大きく、トレーニングの複雑さも増加するという課題があった。多くの場合、人体キーポイントの位置を推定するために高負荷なポーズ推定ネットワークを追加で導入するか、あるいは追加の事前抽出されたヒートマップを監視信号として用いる必要があった。本研究では、この問題を緩和するため、追加的な計算コストが少なく、かつ高価な追加監視信号を必要としない自己動機付け型の強調ネットワーク(Self-Emphasizing Network, SEN)を提案する。具体的には、SENはまず軽量なサブネットワークを用いて局所的な空間時系列特徴を統合し、情報量の多い領域を特定する。その後、アテンションマップを用いて、元の特徴を動的に強化する。また、認識に寄与するフレームはすべて均等ではないことも観察された。これに対し、判別力の高いフレームを適応的に強調し、冗長なフレームを抑制するための時系列自己強調モジュールを提案する。手と顔の特徴を用いる従来手法と包括的な比較を行った結果、本手法は、計算量が大きく、高コストな追加監視に依存する他の手法と比べても優れた性能を示した。特に、追加計算コストが極めて少ないにもかかわらず、PHOENIX14、PHOENIX14-T、CSL-Daily、CSLの4つの大規模データセットにおいて、新しい最先端(SOTA)の精度を達成した。可視化結果により、SENが情報量の多い空間的・時系列的特徴を効果的に強調していることが確認された。実装コードは、https://github.com/hulianyuyy/SEN_CSLR にて公開されている。