6 个月前

音频和语音处理

Hemlata Tak Jee-weon Jung Jose Patino Madhu Kamble Massimiliano Todisco Nicholas Evans

摘要

能够区分真实语音与伪造语音（如深度伪造语音）的特征通常存在于特定的频带和时间片段中。尽管已有多种方法可用于捕捉和建模此类特征，但现有方法在应对多样化的伪造攻击时表现参差不齐，难以实现普适性。因此，可靠的检测通常依赖于多个检测系统的融合，每个系统针对不同类型的攻击进行优化。本文提出，若将融合机制嵌入模型内部，并通过原始波形输入自动学习特征表示，可显著提升检测性能。本文的核心贡献是一种时频图注意力网络（Spectro-Temporal Graph Attention Network, GAT），该网络能够自动学习跨不同频带与时间区间特征线索之间的关联关系。通过在模型层面实现频谱（S）子图与时间（T）子图的图融合，并引入图池化策略以增强判别能力，所提出的RawGAT-ST模型在ASVspoof 2019逻辑访问数据库上的等错误率（Equal Error Rate, EER）达到1.06%，为目前报道的最优结果之一，且可通过开源实现复现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Hemlata Tak Jee-weon Jung Jose Patino Madhu Kamble Massimiliano Todisco Nicholas Evans

摘要

能够区分真实语音与伪造语音（如深度伪造语音）的特征通常存在于特定的频带和时间片段中。尽管已有多种方法可用于捕捉和建模此类特征，但现有方法在应对多样化的伪造攻击时表现参差不齐，难以实现普适性。因此，可靠的检测通常依赖于多个检测系统的融合，每个系统针对不同类型的攻击进行优化。本文提出，若将融合机制嵌入模型内部，并通过原始波形输入自动学习特征表示，可显著提升检测性能。本文的核心贡献是一种时频图注意力网络（Spectro-Temporal Graph Attention Network, GAT），该网络能够自动学习跨不同频带与时间区间特征线索之间的关联关系。通过在模型层面实现频谱（S）子图与时间（T）子图的图融合，并引入图池化策略以增强判别能力，所提出的RawGAT-ST模型在ASVspoof 2019逻辑访问数据库上的等错误率（Equal Error Rate, EER）达到1.06%，为目前报道的最优结果之一，且可通过开源实现复现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供