
要約
生成型音声強調技術は、近年、騒音環境下における音声品質の向上において有望な進展を遂げており、複数の拡散ベースのフレームワークが提案されている。各フレームワークは、異なる学習目的および学習手法を採用している。本稿では、スコアベース生成モデルとシュレーディンガー橋(Schrödinger bridge)に着目し、これらのフレームワークの相違点を解明することを目的とする。さらに、一連の包括的な実験を通じて、各手法の性能を比較し、学習挙動の相違点を明らかにする。また、シュレーディンガー橋フレームワークに特化した新しい知覚的損失関数を提案し、強調音声信号の性能向上および知覚品質の改善を実証した。本研究で使用したすべての実験コードおよび事前学習済みモデルは公開されており、本分野におけるさらなる研究開発を促進することを目的としている。