HyperAI

在BoldVoice这家专注于利用AI技术帮助非英语母语者改善发音的公司，研究人员一直在探索如何让机器理解英语口音，尤其是在非英语母语者的英语发音中，区分口音的强弱。他们开发了一种新技术，通过生成所谓的“口音指纹”来完成这个任务。“口音指纹”是通过对英语语音录音进行分析，由大规模口音模型推理得到的一个嵌入向量，通常包含768个维度的特征。研究背景与方法为了更直观地理解口音指纹，研究人员构建了一个潜在空间，并填充了1000个来自内部数据集的语音样本，这些样本涵盖了不同程度的口音强度。通过偏最小二乘回归（PLS）找到与人口音强度评级最相关的潜在空间方向，并利用UMAP算法将其降维至二维空间以便于可视化。在该图中，横坐标表示影响口音强度的第一因子，纵坐标为第二因子。这些坐标并非直观可解读，也无法做到完全正交，但可以有效区分L2英语发音的口音强度。实际案例：Victor的学习过程初始比较以产品管理实习生Victor和口音指导专家Eliza为例，展示了技术的实际应用。Victor在说英语时口音明显，而Eliza作为美国英语的母语者，发音自然标准。将Victor的原始录音与Eliza的录音嵌入到二维潜在空间中，可以看到Victor的位置位于右上角，而Eliza则在左下角。去除背景噪音随后尝试去除Victor录音中的背景噪音，以减少干扰因素。尽管录音质量得到了显著提升，但在潜在空间中的位置几乎没有变化，证明这一空间确实能够排除质量差异的影响。口音转换接下来，研究人员使用BoldVoice的自制口音转换模型，将Victor的声音转换成接近Eliza的美国口音，这步操作显著改变了Victor的潜在空间位置，使其靠近Eliza的原始位置。从转换后的录音中可以看出，虽然Victor的音色未变，但在语音特性如元音形状、强调、声调和时机方面更加贴近美国口音。实践模拟研究人员给Victor听了转换后的声音，鼓励他模仿这种更加标准的发音。经过约10分钟的练习，Victor的发音有了明显的进步，新的潜在空间位置接近中高级水平。即使如此，他的某些元音依然不够地道。未来，BoldVoice的应用程序将提供逐个音素的发音分析，帮助学习者更好地掌握口音特点并应用于实际发音中。技术的应用前景基于这一模型的口音强度指标具有多重应用场景，包括但不限于： - 追踪学习进度：通过多次录音的数据对比，能以量化的方式监控和评估学习者的口音改进情况。 - 评估语音识别系统：可以检测不同口音强度下自动语音识别系统的性能表现，确保其对各类型口音的普适性。 - 监测语音合成的变化：对于文字转语音（TTS）系统来说，该技术能够有效监测是否存在发音变化，即所谓的“口音漂移”。业内人士普遍认为，BoldVoice的技术开辟了口音评估的新途径，有望大幅提高外语学习的效果，同时对语音识别及合成领域的研究产生重要推动作用。该公司致力于利用先进技术解决现实问题，未来的发展潜力备受看好。如果您对这一话题感兴趣，或有其他问题和建议，可以通过email与他们取得联系。下一期内容，他们将展示如何直接探索口音指纹，而无需为特定任务重新设计这些数据，带领读者开启全球各地英语口音之旅。

相关链接

相关链接

相关链接

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

Command Palette

AI如何精准解析英语口音强度：从Victor到Eliza的发音进化之路

相关链接

Command Palette

AI如何精准解析英语口音强度：从Victor到Eliza的发音进化之路

相关链接

Command Palette

AI如何精准解析英语口音强度：从Victor到Eliza的发音进化之路

相关链接

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA