
摘要
近年来,卷积神经网络(Convolutional Neural Networks, CNNs)在多个领域显著提升了性能,然而其在手形识别(Handshape Recognition)任务中的表现,尤其是在手语识别(Sign Language Recognition)背景下的应用,尚未得到充分研究。为此,我们系统评估了多种卷积神经网络架构在该任务中的适用性。基于LSA16与RWTH-PHOENIX-Weather两个手形数据集,我们对LeNet、VGG16、ResNet-34、全卷积网络(All Convolutional)架构,以及采用常规训练和迁移学习(transfer learning)策略的Inception模型进行了实验,并将其性能与当前该领域的最先进方法进行了对比。同时,我们以前馈神经网络(Feedforward Neural Network)作为基线模型进行对照分析。此外,我们还探索了多种预处理方案,以评估其对识别准确率的影响。实验结果表明,尽管所有模型在两个数据集上均表现出较为良好的性能(与传统手工特征方法相当),但VGG16取得了最佳效果,紧随其后的是经典的LeNet架构。值得注意的是,预先将手部从背景中分割出来(pre-segmenting the hands from the background)显著提升了识别准确率,表明有效的图像预处理对提升手形识别性能具有关键作用。