6 个月前

计算机视觉

Yutong Chen Ronglai Zuo Fangyun Wei Yu Wu Shujie Liu Brian Mak

摘要

手语是一种视觉语言，通过手势动作和非手势元素来传递信息。在手语识别与翻译任务中，现有大多数方法直接将RGB视频编码为隐藏表示。然而，RGB视频作为原始信号，存在大量视觉冗余，导致编码器难以捕捉对理解手语至关重要的关键信息。为缓解这一问题并更好地融入领域知识（如手部形状与身体动作），我们提出一种双流视觉编码器，包含两个独立的分支：一个用于建模原始视频，另一个用于建模由现成关键点检测器生成的关键点序列。为增强两路特征之间的交互，我们探索了多种技术，包括双向横向连接、带辅助监督的符号金字塔网络，以及帧级自蒸馏方法。由此构建的模型称为TwoStream-SLR，具备出色的手语识别（SLR）能力。通过简单地附加一个额外的翻译网络，TwoStream-SLR可进一步扩展为手语翻译（SLT）模型——TwoStream-SLT。实验结果表明，我们的TwoStream-SLR与TwoStream-SLT在多个数据集（包括Phoenix-2014、Phoenix-2014T和CSL-Daily）上的手语识别与翻译任务中均达到了当前最优性能。代码与模型已开源，地址为：https://github.com/FangyunWei/SLRT。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Yutong Chen Ronglai Zuo Fangyun Wei Yu Wu Shujie Liu Brian Mak

摘要

手语是一种视觉语言，通过手势动作和非手势元素来传递信息。在手语识别与翻译任务中，现有大多数方法直接将RGB视频编码为隐藏表示。然而，RGB视频作为原始信号，存在大量视觉冗余，导致编码器难以捕捉对理解手语至关重要的关键信息。为缓解这一问题并更好地融入领域知识（如手部形状与身体动作），我们提出一种双流视觉编码器，包含两个独立的分支：一个用于建模原始视频，另一个用于建模由现成关键点检测器生成的关键点序列。为增强两路特征之间的交互，我们探索了多种技术，包括双向横向连接、带辅助监督的符号金字塔网络，以及帧级自蒸馏方法。由此构建的模型称为TwoStream-SLR，具备出色的手语识别（SLR）能力。通过简单地附加一个额外的翻译网络，TwoStream-SLR可进一步扩展为手语翻译（SLT）模型——TwoStream-SLT。实验结果表明，我们的TwoStream-SLR与TwoStream-SLT在多个数据集（包括Phoenix-2014、Phoenix-2014T和CSL-Daily）上的手语识别与翻译任务中均达到了当前最优性能。代码与模型已开源，地址为：https://github.com/FangyunWei/SLRT。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用于手语识别与翻译的双流网络 | 论文 | HyperAI超神经