HyperAI

摘要

由于会议数据中的说话人分离与语音分离任务密切相关，本文提出一种联合实现这两项目标的方案。该方法基于目标说话人语音活动检测（TS-VAD）的说话人日志技术，假设初始的说话人嵌入（speaker embeddings）已知。我们用一个能够在时频域输出说话人活动估计的新网络，替代了TS-VAD中原本的最终联合说话人活动估计网络。该时频域的活动估计结果可作为掩蔽（masking）或波束成形（beamforming）技术中的掩码，用于语音源分离。该方法既适用于单通道输入，也适用于多通道输入，在两种情况下均在LibriCSS会议数据的语音识别任务上取得了新的最先进词错误率（WER）性能。此外，为进一步分析日志错误对整体WER性能的影响，我们分别计算了基于说话人感知（speaker-aware）与说话人无关（speaker-agnostic）的WER指标。

摘要

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

摘要

用 AI 构建 AI

HyperAI Newsletters

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

摘要

用 AI 构建 AI

HyperAI Newsletters

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TS-SEP：基于估计说话人嵌入的联合说话人分离与分割

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TS-SEP：基于估计说话人嵌入的联合说话人分离与分割

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TS-SEP：基于估计说话人嵌入的联合说话人分离与分割

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

摘要

用 AI 构建 AI

HyperAI Newsletters