HyperAI超神经

摘要

在听觉、视觉和视听语音识别（分别简称ASR、VSR和AVSR）领域的研究传统上是独立进行的。即使最近的一些自监督研究尝试同时解决两个或所有三个任务，通常也会产生独立的模型，导致推理管道分离，增加了内存需求并产生了冗余。本文提出了一种统一的训练策略来整合这些系统。我们证明了为所有三个任务训练单个模型可以提升VSR和AVSR的性能，克服从零开始训练时常见的优化难题。此外，我们引入了一种贪婪伪标签方法，以更有效地利用未标记样本，解决了相关自监督方法中的不足。最后，我们在框架内开发了一种自监督预训练方法，并证明了其在半监督方法中的有效性。尽管使用单个模型处理所有任务，我们的统一方法在LRS3和LRS2数据集上的ASR、VSR和AVSR任务以及新发布的WildVSR数据集上均达到了与近期方法相当的最先进性能。代码和模型可在https://github.com/ahaliassos/usr获取。

摘要

Alexandros Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic

摘要

用 AI 构建 AI

HyperAI Newsletters

Alexandros Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic

摘要

用 AI 构建 AI

HyperAI Newsletters

Alexandros Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

统一语音识别：单一模型处理听觉、视觉及视听觉输入

Alexandros Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

统一语音识别：单一模型处理听觉、视觉及视听觉输入

Alexandros Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

统一语音识别：单一模型处理听觉、视觉及视听觉输入

Alexandros Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic

摘要

用 AI 构建 AI

HyperAI Newsletters