HyperAIHyperAI
منذ 12 أيام

دمج المعلومات عبر الوسائط للكشف عن التزييف الصوتي

{Lei Shi, Bin Wu, Huawei Song, Hao Zhou, Junxiao Xue}
الملخص

في السنوات الأخيرة، تم استخدام أنظمة التحقق من الهوية الصوتية في العديد من السيناريوهات الإنتاجية. وللأسف، ما زالت هذه الأنظمة عرضة بشدة لهجمات التزوير المختلفة، مثل هجمات تركيب الصوت، وهجمات إعادة التسجيل، إلخ. وقد قدم الباحثون العديد من الطرق لمقاومة هذه الهجمات، ولكن في الطرق الحالية، يركّز الباحثون فقط على ميزات الصوت. في الدراسات الحديثة، اكتشف الباحثون أن الصوت يحتوي على كمية كبيرة من المعلومات المرتبطة بالوجه. في الواقع، يمكننا تحديد جنس المُتحدث، وعمره، وشكل الفم، والمعلومات الأخرى من خلال الصوت. يمكن أن تساعد هذه المعلومات في التمييز بين هجمات التزوير. مستوحى من هذه الظاهرة، نقترح إطارًا عامًا يُسمى GACMNet. وللتعامل مع سيناريوهات هجوم مختلفة، قمنا بتطبيق نموذجين مختلفين. ينقسم إطارنا بشكل رئيسي إلى مرحلة ما قبل المعالجة البيانات، ومرحلة استخراج الميزات، ومرحلة دمج الميزات، ومرحلة التصنيف. وبشكل محدد، يتكون إطارنا من فرعين. من ناحية، نستخرج ميزات الوجه من الصوت باستخدام شبكة عصبية تلافيفية (CNN). ومن ناحية أخرى، نستخدم شبكة متصلة بشكل كثيف (DenseNet) لاستخراج ميزات الصوت. علاوةً على ذلك، صممنا آلية دمج معلومات قائمة على الانتباه العالمي لتمييز الأهمية النسبية لكل جزء من الميزات. وقد تم إثبات فعالية حلنا في سيناريوهين كبيرين. مقارنة بالطرق الحالية، يحسن نموذجنا دالة التكلفة المزدوجة (t-DCF) بنسبة 9%، ونسبة الخطأ المتساوي (EER) بنسبة 11% في سيناريو الوصول المنطقي، كما يحسن نموذجنا نسبة EER بنسبة 10% في سيناريو الوصول المادي.

دمج المعلومات عبر الوسائط للكشف عن التزييف الصوتي | أحدث الأوراق البحثية | HyperAI