11일 전
100,000개의 팟캐스트: 구어체 영어 문서 코퍼스
{Rosie Jones, Ben Carterette, Jussi Karlgren, Gareth Jones, Maria Eskevich, Hamed Bonab, Rezvaneh Rezapour, Aasish Pappu, Yongze Yu, Sravana Reddy, Ann Clifton}

초록
팟캐스트는 말하기로 구성된 음성 자료의 방대하고 지속적으로 성장하는 저장소이다. 방송 뉴스와 비교했을 때 팟캐스트는 스타일과 제작 방식 면에서 더 다양하며, 일반적으로 영상 데이터 연구에서 다루는 장르보다 더 많은 장르를 포함하고 있으며, 이전의 대화 데이터 코퍼스와 비교해도 스타일과 형식 면에서 더욱 다양한 특성을 지닌다. 자동 음성 인식(Automatic Speech Recognition, ASR)을 통해 전사된 팟캐스트는 노이즈가 많지만 흥미로운 문서 집합을 형성하며, 자연어 처리(Natural Language Processing), 정보 검색, 언어학의 관점에서 연구할 수 있는 자료가 된다. 음성 파일과 함께 제공될 경우, 음성 처리 및 비언어적 특성(paralinguistic), 사회언어학적 특성(sociolinguistic), 음향적 특성(acoustic) 연구를 위한 유용한 자원이 된다. 본 연구에서는 10만 개의 팟캐스트로 구성된 새로운 코퍼스인 스포티파이 팟캐스트 데이터셋(Spotify Podcast Dataset)을 소개한다. 우리는 두 가지 작업, 즉 (1) 패스지 검색(passage search)과 (2) 요약(summarization)을 사례 연구를 통해 이 분야의 복잡성을 보여준다. 이 데이터셋은 검색 및 요약 작업에 사용된 이전의 음성 코퍼스보다 수 주 단위로 크기가 크다. 우리의 결과는 이 코퍼스의 규모와 다양성이 새로운 연구 방향을 열어줄 수 있음을 시사한다.