
要約
生成音声AIに関する言語領域での影響が増大しており、個人間の音声クローンやリアルタイムの音声変換が可能となっています。この技術は重大な倫理的脅威をもたらし、プライバシーの侵害や誤った表現につながる可能性があるため、ディープフェイク音声変換のAI生成音声をリアルタイムで検出する必要性が急務となっています。本研究では、上記の新規課題に対処するために、DEEP-VOICEデータセットが作成されました。これは、8人の著名人物の実際の人間の音声と、リトリーバルベースの音声変換を使用して互いに変換された音声から構成されています。実際の音声かAI生成かという二値分類問題として提示され、t検定による時間的なオーディオ特徴量の統計解析により、有意に異なる分布があることが明らかになりました。機械学習モデルによる音声源識別のため、ハイパーパラメータ最適化が実装されました。208個の個々の機械学習モデルを10分割交差検証で訓練した結果、Extreme Gradient Boosting(極端勾配ブースティング)モデルは平均99.3%の分類精度を達成し、約0.004ミリ秒(1秒間の音声に対して)でリアルタイムで音声を分類することが可能であることが判明しました。本研究で生成されたすべてのデータは公開されており、今後のAI音声検出に関する研究に利用できます。