
uh나 um과 같은 중간 말투는 사람들이 생각을 정리하기 위해 잠시 멈출 때 사용하는 소리나 단어를 의미한다. 녹음 파일에서 이러한 중간 말투를 찾아 제거하는 작업은 미디어 편집에서 흔히 발생하지만 매우 번거로운 과정이다. 중간 말투를 자동으로 탐지하고 분류할 수 있다면 이 과정을 크게 보완할 수 있으나, 현재까지 관련 연구는 매우 제한적이다. 그 주요 원인은 모델 훈련 및 평가를 위한 중간 말투가 태그된 데이터셋이 부족하기 때문이다. 본 연구에서는 팟캐스트에서 흔히 나타나는 숨소리, 웃음, 단어 반복 등과 같은 소리 5만 건과 함께 35,000건의 중간 말투를 태그한 새로운 음성 데이터셋인 PodcastFillers를 제안한다. 본 연구에서는 VAD(Voice Activity Detection)와 ASR(Automatic Speech Recognition)를 활용해 중간 말투 후보를 탐지하고, 분류기로 중간 말투의 유형을 구분하는 파이프라인을 제안한다. 제안한 파이프라인을 PodcastFillers 데이터셋에 적용하여 여러 베이스라인과 비교하고, 철저한 아블레이션 스터디를 수행한다. 특히, ASR을 사용하는 것이 얼마나 중요한지와 키워드 스포팅(kwoty spotting)과 유사한 전사 없이 수행하는 접근법과의 성능을 비교한다. 실험 결과, 제안한 파이프라인이 최신 기술 수준의 성능을 달성하며, ASR을 활용하는 것이 키워드 스포팅 기반 접근법보다 훨씬 우수함을 입증한다. 본 연구에서 개발한 PodcastFillers 데이터셋은 공개하여, 향후 연구의 기준 데이터셋으로 활용되기를 기대한다.