6ヶ月前

概要

自動音楽記譜（Automatic Music Transcription, AMT）は、多岐にわたる応用分野において重要な基盤技術として認識されている。このタスクの複雑さを考慮すると、特定の設定に特化したシステムにおいて最も優れた成果が報告されており、例えば楽器に依存するシステムは、楽器に依存しない手法に比べて高い性能を発揮することが多い。同様に、音高（ $f_0$ ）のフレーム単位推定に限定し、より困難な音符イベント検出を省略することで、より高い精度が得られる。しかし、これらの高精度な専門的システムは、実世界での導入が困難な場合が多い。ストレージやネットワーク制約により、複数の専用モデルを併用することが不可能であり、メモリおよび実行時間の制約によってモデルの複雑さも制限される。本論文では、多音符出力に対応し、多様な楽器（ボーカルを含む）に一般化可能な軽量なニューラルネットワークを提案する。本モデルは、フレーム単位の発音タイミング（onset）、複数音高（multipitch）、および音符の活性化を同時予測するように学習されており、実験的にこのマルチ出力構造がフレームレベルの音符推定精度の向上に寄与することを示した。単純な構造にもかかわらず、ベンチマーク結果では、同等のベースラインと比較して音符推定性能が顕著に優れており、専門的かつ最先端のAMTシステムと比較しても、フレームレベルの精度はわずかに下回るにとどまる。本研究を通じて、低リソースかつ楽器に依存しないAMTシステムのさらなる研究をコミュニティに促進することを期待する。