9일 전

pyannote.audio: 화자 다이어리제이션을 위한 신경망 빌딩 블록

Hervé Bredin, Ruiqing Yin, Juan Manuel Coria, Gregory Gelly, Pavel Korshunov, Marvin Lavechin, Diego Fustes, Hadrien Titeux, Wassim Bouaziz, Marie-Philippe Gill

논문 세부 정보 보기

pyannote.audio: 화자 다이어리제이션을 위한 신경망 빌딩 블록

초록

우리는 스피커 다이어라이제이션(발화자 분리)을 위한 파이썬 기반 오픈소스 툴킷인 pyannote.audio를 소개합니다. PyTorch 머신러닝 프레임워크를 기반으로 하며, 엔드투엔드(end-to-end) 신경망 빌딩 블록들을 제공하여, 이를 조합하고 공동 최적화함으로써 스피커 다이어라이제이션 파이프라인을 구축할 수 있습니다. 또한 pyannote.audio는 음성 활동 탐지(voice activity detection), 발화자 전환 탐지(speaker change detection), 겹침 음성 탐지(overlapped speech detection), 그리고 발화자 임베딩(speaker embedding) 등 다양한 분야를 커버하는 사전 훈련된 모델을 제공하며, 대부분의 작업에서 최신 기술(SOTA, state-of-the-art) 수준의 성능을 달성하고 있습니다.