9日前

一つのモデルでは不十分である:孤立した手話認識におけるアンサンブル手法

{Zdeněk Krňoul, Miroslav Hlaváč, Matyáš Boháček, Jakub Kanis, Ivan Gruber, Marek Hrúz}
要約

本稿では、孤立した手話表現の認識に焦点を当て、手話認識に関する研究を深く探求する。このタスクは、フレーム(すなわち画像)の系列を、事前に定義された手話語彙(gloss)のいずれかに分類する問題として定式化する。我々は、外見に基づくアプローチとしてI3DとTimeSformer、および姿勢に基づくアプローチとしてSPOTERの3つの手法を分析する。外見ベースの手法は、複数の異なるデータモダリティで学習させたのに対し、SPOTERの性能評価は異なる前処理手法を用いて行われた。すべての手法は、公開されている2つのデータセット、AUTSLおよびWLASL300で評価された。特に、CMA-ES最適化手法を用いて最適なアンサンブル重みパラメータを探索することで、アンサンブル技術を活用し、WLASL300データセットにおいて73.84%の精度という、新たな最先端(state-of-the-art)の結果を達成した。さらに、Transformerモデルに基づく新たなアンサンブル手法を提案し、これを「Neural Ensembler」と命名する。