9日前
シグナル言語認識モデルのファインチューニング:技術報告
Maxim Novopoltsev, Leonid Verkhovtsev, Ruslan Murtazin, Dmitriy Milevich, Iuliia Zemtsova

要約
手話認識(Sign Language Recognition, SLR)は、手の動き、身体の姿勢、さらには表情といった高速かつ複雑な動作を伴うため、極めて重要ではあるが同時に困難な課題である。本研究では、以下の2つの問いに焦点を当てた:他の手話データセットに対するファインチューニングが手話認識の精度向上にどのように寄与するか、またGPUを用いずにリアルタイムでの認識が可能かどうか。検証には、アメリカン・サイン・ランゲージ(WLASL)、トルコ語手話(AUTSL)、ロシア語手話(RSL)の3つの異なる言語のデータセットを用いた。本システムの平均処理速度は1秒間に3回の予測を達成しており、リアルタイム処理の要件を満たしている。このモデル(プロトタイプ)は、音声・聴覚障害を持つ人々がインターネットを通じて他者と会話する上で大きな支援となる。また、モデルを別の手話データセットで追加学習することによる認識精度への影響についても検証した。その結果、別の手話データセットでの追加学習は、ほぼ常にジェスチャー認識の品質向上に寄与することが明らかになった。さらに、モデルの学習実験の再現、モデルのONNX形式への変換、およびリアルタイムジェスチャー認識の推論を可能にするコードも公開している。