2달 전

GPU 가속화된 안내 소스 분리 기법을 이용한 회의 전사

Raj, Desh ; Povey, Daniel ; Khudanpur, Sanjeev
GPU 가속화된 안내 소스 분리 기법을 이용한 회의 전사
초록

가이드된 소스 분리(Guided Source Separation, GSS)는 사전 계산된 화자 활동과 블라인드 소스 분리를 기반으로 중첩된 음성 신호의 프론트 엔드 향상을 수행하는 타겟 화자 추출 방법입니다. 이 방법은 처음으로 CHiME-5 챌린지에서 제안되었으며, 지연-합성 빔포밍 기준에 비해 상당한 개선을 제공했습니다. 그러나 그 강점에도 불구하고, GSS 방법은 주로 높은 계산 시간 때문에 회의 전사 벤치마크에 한정적으로 도입되었습니다. 본 논문에서는 현대적인 GPU 기반 파이프라인, 주파수와 세그먼트의 배치 처리를 활용하여 CPU 기반 추론보다 300배 이상의 속도 향상을 제공하는 개선된 GSS 구현에 대해 설명합니다. 개선된 추론 시간 덕분에 GSS 알고리즘의 여러 매개변수(예: 컨텍스트 지속 시간, 채널 수, 노이즈 클래스 등)에 대한 상세한 감소 연구(ablation study)를 수행할 수 있습니다. 우리는 LibriCSS, AMI, AliMeeting 등의 인기 있는 회의 벤치마크에 대한 화자 속성 전사(end-to-end reproducible pipelines for speaker-attributed transcription)를 위한 종단 재현 파이프라인을 제공합니다. 우리의 코드와 레시피는 공개적으로 이용 가능합니다: https://github.com/desh2608/gss.

GPU 가속화된 안내 소스 분리 기법을 이용한 회의 전사 | 최신 연구 논문 | HyperAI초신경