17 天前
EnCLAP++:针对优化自动音频字幕生成性能的EnCLAP框架分析
Jaeyeon Kim, Minjeon Jeon, Jaeyoon Jung, Sang Hoon Woo, Jinjoo Lee

摘要
在本研究中,我们旨在对当前最先进的自动音频字幕生成模型——EnCLAP框架进行分析与优化。通过系统探究声学编码器组件的修改对模型性能的影响,评估在不同数据规模下进行预训练的效果,并深入研究重排序(reranking)策略的有效性,我们基于大量实验与生成字幕的定量分析,提出改进版本EnCLAP++。该优化版本在性能上显著超越原始模型,展现出更强的生成能力与鲁棒性。