9 天前

AUTSL:一个大规模多模态土耳其手语数据集及基线方法

Ozge Mercanoglu Sincan, Hacer Yalim Keles
AUTSL:一个大规模多模态土耳其手语数据集及基线方法
摘要

手语识别是一项具有挑战性的任务,其难点在于需同时捕捉多个信息源的局部与全局动态特征,包括手部形状与朝向、手部运动、身体姿态以及面部表情等。即便在当前最先进的模型下,要在真实场景中对大规模手语词汇进行高效、准确的计算识别,仍然是一个未完全解决的难题。本研究提出了一种新的大规模多模态土耳其手语数据集(AUTSL),并构建了相应的基准测试体系,同时提供了基线模型以供性能评估。本数据集包含由43位不同手语使用者表演的226个手语动作,共收录38,336个孤立手语视频样本。这些样本在室内与室外多种复杂背景下录制,背景多样性高;同时,手语使用者的空间位置和身体姿态也存在显著变化。每个视频样本均通过微软Kinect v2设备采集,包含RGB图像、深度图和骨骼关节点三种模态数据。为支持用户无关(user-independent)的模型评估,我们构建了专门的训练集与测试集基准。我们训练了多种基于深度学习的模型,并利用该基准进行了实证评估:采用卷积神经网络(CNN)提取空间特征,使用单向与双向长短期记忆网络(LSTM)建模时序动态信息;同时引入特征池化模块与时间注意力机制以进一步提升模型性能。我们在AUTSL数据集及Montalbano数据集上对基线模型进行了全面评估。在Montalbano数据集上,我们的模型达到了96.11%的识别准确率,表现与当前最先进方法相当。在AUTSL数据集采用随机划分训练-测试集的设置下,模型最高准确率达95.95%。然而,在所提出的用户无关基准测试中,表现最佳的基线模型准确率为62.02%。不同基准设置下性能差距显著,凸显了本数据集在真实场景复杂性方面带来的挑战。AUTSL基准数据集已公开发布,访问地址为:https://cvml.ankara.edu.tr。

AUTSL:一个大规模多模态土耳其手语数据集及基线方法 | 最新论文 | HyperAI超神经