6 个月前

音频和语音处理

卷积神经网络

多模态表征

Eleonora Grassucci Gioia Mancini Christian Brignone Aurelio Uncini Danilo Comminiello

摘要

由于沉浸式音频体验与应用（如虚拟现实与增强现实）的普及，空间音频技术正受到越来越多的关注。在这些应用中，通常采用Ambisonics麦克风阵列获取三维音频信号，每个麦克风由四个麦克风胶囊组成，能够将声场分解为球谐函数形式。本文提出一种基于双四元数（dual quaternion）的空间声场表示方法，用于由两个一阶Ambisonics（First Order Ambisonics, FOA）麦克风组成的阵列所采集的音频信号。该方法将音频信号封装于一个双四元数中，利用四元数代数的特性，有效挖掘各通道信号之间的相关性。这种具有六自由度（6DOF）的增强型表示方式，能够更精确地覆盖声场，从而实现更精准的声音定位与更具沉浸感的音频体验。我们在声音事件定位与检测（Sound Event Localization and Detection, SELD）基准数据集上评估了该方法，结果表明，所提出的双四元数SEL D模型（DualQSELD-TCN）在引入时序卷积模块（temporal convolution blocks）后，相较于实数与四元数基线模型均取得了更优的性能，充分验证了声场增强表示的有效性。完整代码已开源，地址为：https://github.com/ispamm/DualQSELD-TCN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

卷积神经网络

多模态表征

Eleonora Grassucci Gioia Mancini Christian Brignone Aurelio Uncini Danilo Comminiello

摘要

由于沉浸式音频体验与应用（如虚拟现实与增强现实）的普及，空间音频技术正受到越来越多的关注。在这些应用中，通常采用Ambisonics麦克风阵列获取三维音频信号，每个麦克风由四个麦克风胶囊组成，能够将声场分解为球谐函数形式。本文提出一种基于双四元数（dual quaternion）的空间声场表示方法，用于由两个一阶Ambisonics（First Order Ambisonics, FOA）麦克风组成的阵列所采集的音频信号。该方法将音频信号封装于一个双四元数中，利用四元数代数的特性，有效挖掘各通道信号之间的相关性。这种具有六自由度（6DOF）的增强型表示方式，能够更精确地覆盖声场，从而实现更精准的声音定位与更具沉浸感的音频体验。我们在声音事件定位与检测（Sound Event Localization and Detection, SELD）基准数据集上评估了该方法，结果表明，所提出的双四元数SEL D模型（DualQSELD-TCN）在引入时序卷积模块（temporal convolution blocks）后，相较于实数与四元数基线模型均取得了更优的性能，充分验证了声场增强表示的有效性。完整代码已开源，地址为：https://github.com/ispamm/DualQSELD-TCN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供