手話認識(Sign Language Recognition: SLR)とは、与えられた動画から手話の語彙(gloss)を自動的に解釈する技術を指す。この研究分野は、手話が手のジェスチャー、身体の姿勢、さらには表情といった急速かつ複雑な運動を含むため、コンピュータビジョンにおいて極めて困難な課題を呈する。近年、被験者や背景の変化に強く対応できる点から、骨格情報に基づく行動認識が注目を集めている。しかし、現在の骨格ベースのSLR手法には以下の3つの課題が存在する。第一に、多くの研究が現実的な手の姿勢を無視しており、非現実的な骨格表現に基づいてモデルを学習している点である。第二に、学習および推論の両フェーズにおいて完全なデータが常に利用可能であると仮定しており、身体各部位間の複雑な関係を一括して捉えようとする傾向がある。第三に、すべての手話語彙を同一視しており、骨格表現の複雑さの差異を考慮していない点である。本研究では、手の骨格表現の現実性を向上させるために、運動学的制約を強制する「運動学的手の姿勢補正法」を提案する。また、欠損データの影響を軽減するため、局所的な空間時系列的文脈に注目する「特徴分離型メカニズム」を導入した。この手法は、個々の特徴から独立して文脈を同時に捉えることで、SLRモデルの堅牢性を向上させる。さらに、手話語彙の複雑さに応じて適応的に推論を行う「入力適応型推論アプローチ」を開発し、計算効率と精度の最適化を実現した。実験結果から、本手法の有効性が示された。WLASL100およびLSA64の両データセットにおいて、新たなSOTA(State-of-the-Art)性能を達成した。WLASL100ではトップ1精度86.50%を達成し、従来のSOTAに対して相対的に2.39%の向上を示した。LSA64ではトップ1精度99.84%を記録した。本研究に関連するコードおよび実装資料は、公開されている(https://github.com/mpuu00001/Siformer.git)。