
要約
機械学習、および一般的に人工知能(AI)アプローチは、コンピュータサイエンスのあらゆる分野において大きな進展をもたらし、既知のあらゆる問題における予測精度を著しく向上させました。実際、この進化により、偽造やマルチメディアコンテンツにおける一般的な改ざんを検出するための、捜査やフォレンジックの現場で実用可能な有効なフレームワークやソリューションの構築が可能になりました。しかし一方で、これらのシステムに信頼を置くことはできるでしょうか?研究活動は正しい方向性に向かっていると言えるでしょうか?私たちは、現実世界における複雑な状況を十分に考慮せずに、容易に手に入る成果(低木の果実)にばかり注目しているのではないのでしょうか?本論文の目的は、合成音声検出という特定の文脈において、訓練に用いるデータが十分に大きくないため、既存の文献に掲載されている技術に対する信頼性に疑問を呈し、研究コミュニティに警鐘を鳴らすことにある。この目的のため、代表的な音声スプーフィングデータセットを対象とした探索的調査が行われたが、驚くべきことに、深層学習(Deep Learning)を用いずに、単純な分類器を構築することが容易であった。ビットレートに関する単純な考察さえも、効果的な検出性能を達成するのに十分であった。