18日前

フレームレベルをスキップする:ニューラル Semi-CRF を用いたイベントベースのピアノ音符転写

{Zhiyao Duan, Frank Cwitkowitz, Yujia Yan}
フレームレベルをスキップする:ニューラル Semi-CRF を用いたイベントベースのピアノ音符転写
要約

ピアノ音符転写システムは通常、音声の各フレームにおける音高活動を推定するように最適化されている。その後、フレーム単位の予測から音符イベントを推定するために、精密に設計されたヒューリスティクスや後処理アルゴリズムが用いられることが一般的である。近年の手法では、音符イベントの異なる段階の活性化を独立して推定する多タスク学習の枠組みとしてピアノ音符転写を定式化するアプローチも提案されている。しかし、こうした手法は、個々の非連続な観測値の集積ではなく、全体としての音符区間をイベントとして明確に指定することを目的とするタスクの本質と整合性が低い。本研究では、音符イベントを直接予測することを最適化した新たなピアノ音符転写の定式化を提案する。本手法は、個々のフレームではなく区間に対するスコアを出力する半マルコフ条件付き確率場(semi-CRF)に基づく。このようにピアノ音符転写を定式化することで、音符イベントの異なる段階に対する非連続なフレーム単位の推定に依存する必要がなくなる。本研究ではMAESTROデータセット上で実験を行い、提案モデルが現在の最先端技術を上回ることを示した。結果から、semi-CRF出力層は複雑度が二次的であるものの、シンプルかつ高速かつ高精度なイベントベースの予測手法として有効であることが示された。このアプローチは、現在フレーム単位の推定に依存している他の分野においても同様の成功をもたらす可能性がある。