Bts-e: كشف التزييف الصوتي بالذكاء الاصطناعي باستخدام مشفر التنفس والكلام والصمت
التصيد الصوتي (Vishing) أصبح شائعًا بشكل متزايد بفضل تطور تقنية توليد الكلام. وبخاصة، فإن استخدام التعلم العميق لإنشاء مقاطع صوتية ذات محتوى عشوائي تُحاكي صوت الضحية يجعل من الصعب على البشر فحسب، بل يصعب أيضًا على أنظمة التحقق التلقائي من المتكلم (ASV) التمييز بينها وبين الصوت الحقيقي. وقد تم تطوير أنظمة تدابير وقائية (CM) مؤخرًا لمساعدة أنظمة ASV في مواجهة الصوت المزيف. في هذه الدراسة، نقترح إطارًا يُسمى BTS-E، يهدف إلى تقييم الارتباط بين أصوات التنفس، والتحدث (الكلام)، والصمت داخل مقطع صوتي، ثم استخدام هذه المعلومات في مهام كشف الصوت المزيف (Deepfake). ونؤكد أن الأصوات الطبيعية البشرية، مثل صوت التنفس، يصعب توليد محاكاة دقيقة لها باستخدام أنظمة تحويل النص إلى كلام (TTS). وقد أجرينا تقييمًا على نطاق واسع باستخدام مجموعتي التقييم ASVspoof 2019 و2021 لاختبار فرضيتنا. وأظهرت نتائج التجربة إمكانية استخدام ميزة صوت التنفس في كشف الأصوات المزيفة. وبشكل عام، يُعد النظام المقترح يُحسن أداء التصنيف بشكل ملحوظ بنسبة تصل إلى 46%.