11日前
100,000 ポッドキャスト:スプーケン・イングリッシュ文書コーパス
{Rosie Jones, Ben Carterette, Jussi Karlgren, Gareth Jones, Maria Eskevich, Hamed Bonab, Rezvaneh Rezapour, Aasish Pappu, Yongze Yu, Sravana Reddy, Ann Clifton}

要約
ポッドキャストは、話された音声の大きなかつ成長著しい蓄積である。音声形式として、ポッドキャストは放送ニュースよりも多様なスタイルや制作形態を有しており、従来の動画データで研究されることが多いジャンルよりも多くのジャンルを含んでおり、過去の会話コーパスと比べてもスタイルや形式においてより多様性に富んでいる。自動音声認識(ASR)により転写された場合、これらはノイズを含むが魅力的な文書の集合体となり、自然言語処理、情報検索、言語学の観点から分析可能な対象となる。音声ファイルと併せて用いることで、音声処理、および領域における副言語的・社会言語学的・音響的側面の研究にも貴重なリソースとなる。本研究では、10万本のポッドキャストから構成される新しいコーパス「Spotify Podcast Dataset」を紹介する。このデータセットを用いて、(1)パスエージ検索および(2)要約生成という二つのタスクを事例研究として提示する。これは、検索および要約に用いられた過去の音声コーパスと比べて、桁違いに規模が大きい。本研究の結果から、このコーパスの規模と多様性が、新たな研究の道を開く可能性があることが示された。