
摘要
在工业级规模部署自动语音识别(ASR)模型面临显著的硬件资源管理挑战,尤其是在处理长达数小时的长时音频转录任务时。尽管大型Conformer模型具备强大性能,但在配备80GB显存的GPU上,其单次处理音频长度仍受限于15分钟。此外,输入音频长度的可变性进一步加剧了效率问题,因为标准的批处理方式会导致大量填充(padding),从而显著增加资源消耗与执行时间。为解决上述问题,我们提出ChunkFormer——一种高效的ASR模型,采用基于分块处理并引入相对右文上下文(relative right context)的机制,可在低显存GPU上实现长音频的高效转录。ChunkFormer能够在80GB GPU上处理长达16小时的音频,较当前最先进的FastConformer模型提升约1.5倍的处理时长。同时,该模型在长时音频转录任务中显著提升性能,词错误率(WER)最高可降低7.7个百分点(绝对值),且在短时任务上的识别准确率与传统Conformer模型相当。通过摒弃标准批处理中的填充操作,ChunkFormer采用掩码批处理(masked batching)技术,使批处理过程的执行时间与内存占用降低超过3倍,大幅降低了各类ASR系统的运行成本,尤其在真实应用场景中服务于大规模模型部署时,显著减少了对GPU资源的需求。