6 个月前

音频和语音处理

多任务学习

Chao-Han Huck Yang Yun-Yun Tsai Pin-Yu Chen

摘要

在数据有限的情况下实现时间序列分类是一个兼具实际意义与挑战性的问题。当前的方法主要依赖于人工设计的特征提取规则或领域特定的数据增强技术。受深度语音处理模型进展的启发，且考虑到语音数据本质上是单变量时间序列信号，本文提出了一种新颖的端到端方法——Voice2Series（V2S），该方法通过输入变换学习与输出标签映射，将声学模型重新编程用于时间序列分类。借助大规模预训练语音处理模型强大的表示学习能力，我们在30个不同的时间序列任务上验证了V2S在19个任务中取得了具有竞争力的分类性能。此外，我们从理论上证明了V2S的总体风险被源域风险与一个衡量特征对齐效果的Wasserstein距离所上界控制，从而为该方法提供了理论支持。本研究为时间序列分类提供了全新的、有效的解决方案。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Chao-Han Huck Yang Yun-Yun Tsai Pin-Yu Chen

摘要

在数据有限的情况下实现时间序列分类是一个兼具实际意义与挑战性的问题。当前的方法主要依赖于人工设计的特征提取规则或领域特定的数据增强技术。受深度语音处理模型进展的启发，且考虑到语音数据本质上是单变量时间序列信号，本文提出了一种新颖的端到端方法——Voice2Series（V2S），该方法通过输入变换学习与输出标签映射，将声学模型重新编程用于时间序列分类。借助大规模预训练语音处理模型强大的表示学习能力，我们在30个不同的时间序列任务上验证了V2S在19个任务中取得了具有竞争力的分类性能。此外，我们从理论上证明了V2S的总体风险被源域风险与一个衡量特征对齐效果的Wasserstein距离所上界控制，从而为该方法提供了理论支持。本研究为时间序列分类提供了全新的、有效的解决方案。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供