軽量なテキストto音声モデル「Sopro」が登場、ゼロショット音声クローン実現
GitHubで公開された軽量な音声合成モデル「Sopro」が注目を集めている。Soproは、ポルトガル語の「息吹き」を意味する言葉に由来し、個人の副業として開発された英語向けテキストtoスピーチ(TTS)モデルである。同モデルは従来のTransformerアーキテクチャではなく、WaveNetにインスパイアされた拡張畳み込み層と軽量なクロスアテンション層を採用しており、計算リソースを抑えた設計が特徴。訓練は単一のL40S GPUで実施され、低予算での開発を実現している。 Soproは最新の性能(SOTA)には達していないものの、軽量性と実装のシンプルさが評価され、特に低リソース環境での利用に適している。主な特徴として、温度やtop_pといった生成パラメータの制御、非ストリーミングおよびストリーミング出力に対応。PythonAPIやCLI、DockerによるWebデモも提供されており、ブラウザ上でhttp://localhost:8000から簡単に試用可能。 ただし、開発上の制約により、訓練データとして事前にトークン化されたテキストと、元の音声データを削除した状態で学習が行われており、音声の細かな特徴(声質のニュアンスなど)の再現に限界がある。また、生成長は約32秒(400フレーム)までに制限されており、それ以上は誤生成(ハルシネーション)のリスクが高まる。今後の改善点として、畳み込み層の状態キャッシュや、元の音声データを活用したスピーカーエンベッディングの強化が挙げられる。 開発者であるSamuel Vitorino氏は、AIをコード整理やアイデアのブラッシュアップ、Webデモ作成に活用。今後は多言語対応の拡張と、モデルのさらなる最適化を目指しており、支援を募る形で「Buy Me a Coffee」のリンクを公開している。Soproは、低予算で高効率なTTSモデルの可能性を示す、実用的かつ示唆に富むプロジェクトである。
