
手話認識は、手の形や向き、手の動き、体の姿勢、顔の表情など、複数の情報源が同時かつ局所的・全体的に表現されるため、非常に困難な課題である。特に、実生活環境において大規模な手話語彙をリアルタイムで計算的に認識することは、最新のモデルを用いても依然として挑戦的である。本研究では、大規模なマルチモーダル・トルコ手話データセット(AUTSL)を新たに構築し、ベンチマークとベースラインモデルを提供することで、モデルの性能評価を可能にする。本データセットは、43名の異なる発話者によって実行された226種類の手話記号から構成され、合計38,336個の分離型手話動画サンプルを含む。これらのサンプルは、屋内および屋外環境で撮影されており、多様な背景や発話者の空間的位置・姿勢の変動を反映している。各サンプルはMicrosoft Kinect v2を用いて撮影され、RGB画像、深度情報、スケルトンデータの3つのモダリティを含んでいる。ユーザー独立評価を可能とするため、ベンチマーク用の訓練データセットとテストデータセットを準備した。複数の深層学習モデルを訓練し、ベンチマークを用いた実証的評価を実施した。特徴抽出にはCNNを、時系列情報の表現には一方向および双方向LSTMモデルを採用した。さらに、特徴プーリングモジュールと時系列アテンションをモデルに統合し、性能向上を図った。ベースラインモデルは、AUTSLおよびMontalbanoデータセットの両方で評価された。Montalbanoデータセットでは、最先端手法と同等の性能を達成し、96.11%の精度を記録した。AUTSLデータセットにおけるランダムな訓練・テスト分割では、最高で95.95%の精度を達成した。一方、提案したユーザー独立型ベンチマークデータセットでは、最良のベースラインモデルでも62.02%の精度にとどまった。同一ベースラインモデルの性能差は、本ベンチマークデータセットに内在する課題を示している。AUTSLベンチマークデータセットは、https://cvml.ankara.edu.tr にて公開されている。