6 个月前

计算机视觉

Maxim Novopoltsev Leonid Verkhovtsev Ruslan Murtazin Dmitriy Milevich Iuliia Zemtsova

摘要

手语识别（Sign Language Recognition, SLR）是一项至关重要但极具挑战性的任务，因为手语涉及手势、身体姿态乃至面部表情的快速而复杂的动态变化。在本研究中，我们重点探讨了两个核心问题：在其他手语数据集上进行微调是否有助于提升手语识别的性能，以及在不依赖GPU的情况下是否能够实现真正的实时识别。为此，我们采用了三种不同语言的手语数据集进行模型验证，包括美国手语（WLASL）、土耳其手语（AUTSL）和俄语手语（RSL）。实验结果表明，该系统的平均识别速度可达每秒3次预测，完全满足实时应用场景的需求。该模型（原型）有望为听障或言语障碍人士通过互联网与他人进行交流提供有力支持。此外，我们还研究了在另一种手语数据上对模型进行额外训练对其识别性能的影响。结果表明，在另一种手语数据上进一步训练模型，几乎总是能够显著提升手势识别的准确率。为促进研究复现与应用落地，我们还公开了用于模型训练实验复现的代码，以及将模型转换为ONNX格式并实现低延迟实时手势识别的推理代码。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Maxim Novopoltsev Leonid Verkhovtsev Ruslan Murtazin Dmitriy Milevich Iuliia Zemtsova

摘要

手语识别（Sign Language Recognition, SLR）是一项至关重要但极具挑战性的任务，因为手语涉及手势、身体姿态乃至面部表情的快速而复杂的动态变化。在本研究中，我们重点探讨了两个核心问题：在其他手语数据集上进行微调是否有助于提升手语识别的性能，以及在不依赖GPU的情况下是否能够实现真正的实时识别。为此，我们采用了三种不同语言的手语数据集进行模型验证，包括美国手语（WLASL）、土耳其手语（AUTSL）和俄语手语（RSL）。实验结果表明，该系统的平均识别速度可达每秒3次预测，完全满足实时应用场景的需求。该模型（原型）有望为听障或言语障碍人士通过互联网与他人进行交流提供有力支持。此外，我们还研究了在另一种手语数据上对模型进行额外训练对其识别性能的影响。结果表明，在另一种手语数据上进一步训练模型，几乎总是能够显著提升手势识别的准确率。为促进研究复现与应用落地，我们还公开了用于模型训练实验复现的代码，以及将模型转换为ONNX格式并实现低延迟实时手势识别的推理代码。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供