
最先端の音声ディープフェイク検出器は、深層ニューラルネットワークを活用することで著しい認識性能を示しています。しかし、この優位性は大量の二酸化炭素排出量という問題を伴っています。これは主に、高性能コンピューティングと加速装置の使用、および長い学習時間によるものです。研究によると、平均的な深層NLPモデルは約626,000ポンド(約284,000キログラム)のCO\textsubscript{2}を排出し、これは平均的な米国の自動車が一生で排出する量の5倍に相当します。これは環境にとって大きな脅威であることは間違いありません。この課題に対処するために、本研究では標準的なCPUリソースを使用してシームレスに学習できる新しい音声ディープフェイク検出フレームワークを提案します。当方の提案するフレームワークでは、公開リポジトリで利用可能な事前学習済みの自己教師なし学習(Self-Supervised Learning: SSL)ベースのモデルを利用します。既存の方法がSSLモデルを微調整し、下流タスクのために追加の深層ニューラルネットワークを用いるのに対して、我々は事前学習済みモデルから抽出したSSL埋め込みを使用してロジスティック回帰や浅いニューラルネットワークなどの古典的な機械学習アルゴリズムを活用します。我々のアプローチは、一般的に使用されている高二酸化炭素排出量を持つ手法と比較しても競争力のある結果を示しています。ASVspoof 2019 LAデータセットを使用した実験では、1,000未満の学習可能なモデルパラメータで0.90%の等誤差率(Equal Error Rate: EER)を達成しました。さらなる研究を促進し、再現可能な結果をサポートするために、Pythonコードは受理後公開されます。GitHub: https://github.com/sahasubhajit/Speech-Spoofing-