
要約
コーディフィード(離散符号化された)音楽音声上で事前学習された言語モデルが、下流の音楽情報検索(MIR)タスクに有用な表現を学習することを示す。具体的には、100万曲の音楽から得られたコーディフィード音声上で学習された言語モデルを内包する音楽生成システム「Jukebox」(Dhariwal他、2020)の表現を検討する。Jukeboxの表現がMIRに有用な情報を含むかどうかを確認するために、これらの表現を入力特徴量として用い、複数のMIRタスクにおいて浅いモデルを学習させた。従来のMIRモデルがタグ付けデータ上で事前学習された表現と比較して、Jukeboxの表現を入力特徴量として使用した場合、タグ付け、ジャンル分類、感情認識、キー検出の4つのMIRタスクにおいて平均して30%高い性能が得られた。特にキー検出タスクでは、Jukeboxの表現がタグ付けデータ上で事前学習されたモデルの表現よりも顕著に優れており、コーディフィード音声を用いた言語モデルによる事前学習が、従来手法における盲点を補完する可能性があることを示唆している。本研究では、タグではなく音声そのものをモデル化することで、MIRに適したより豊かな表現が得られることを、Jukeboxの表現の強さから裏付けられたと解釈している。