
要約
大規模モデルの登場は、機械学習の新たな時代を切り開いた。これらのモデルは、膨大なデータセットを活用することで、複雑なパターンを捉え、統合する能力を大幅に向上させ、従来の小規模モデルを大きく上回っている。しかし、特に音声生成分野におけるスケーリングに関する研究は依然として限定的であり、これまでの取り組みは高精細(HiFi)な44.1kHz領域への拡張に至らず、高周波数領域においてスペクトルの不連続性やぼやけが生じるという課題に加え、ドメイン外データに対する耐性の欠如という問題も抱えていた。こうした制約は、音楽や歌唱音声生成を含む多様な応用シーンへのモデルの適用を制限している。本研究では、スケーラブルな生成的敵対ネットワーク(Generative Adversarial Networks)を活用した、拡張型多様音声生成手法「EVA-GAN(Enhanced Various Audio Generation via Scalable GANs)」を提案する。EVA-GANは、スペクトル再構成および高周波数再構成の精度、およびドメイン外データに対する堅牢性において、従来の最先端技術を大幅に上回る性能を達成している。本手法は、44.1kHzの高精細音声データとして36,000時間に及ぶ大規模データセットを活用し、文脈を意識したモジュール、人間が関与するアーティファクト評価ツールキット、および約2億パラメータ規模に拡張されたモデル構成を採用することで、高品質な音声生成を実現した。本研究のデモンストレーションは、https://double-blind-eva-gan.cc にて公開されている。