HyperAIHyperAI
منذ 12 أيام

DENet: بنية عميقة لتطبيقات المراقبة الصوتية

{Mario Vento, Alessia Saggese, Antonio Roberto, Antonio Greco}
الملخص

في السنوات الأخيرة، شهدت كل من المجتمع العلمي والسوق اهتمامًا كبيرًا بتصميم أنظمة مراقبة صوتية قادرة على تحليل التدفق الصوتي وتحديد الأحداث ذات الاهتمام؛ وهو ما ينطبق بشكل خاص على التطبيقات الأمنية، حيث يمكن استخدام التحليل الصوتي بشكل مفيد كبديل لأنظمة التحليل المرئي، أو بالجمع بينهما. وفي هذا السياق، نقترح في هذا البحث معمارية جديدة لشبكة عصبية تكرارية تلافيفية تُسمى DENet؛ وتُبنى على طبقة جديدة نسمّيها "طبقة إزالة الضوضاء وتعزيز الإشارة (DE)"، والتي تقوم بتصفية الإشارة الأصلية وتعزيزها من خلال تطبيق خريطة انتباه (attention map) على مكونات الإشارة المُمرّرة عبر مرشحات نطاقات ترددية. على عكس الطرق المتطورة حديثًا، فإن DENet تأخذ كمدخلات الموجة الصوتية الأصلية دون فقدان (lossless raw waveform)، وتمكّن من تعلّم تطوّر الترددات ذات الاهتمام بمرور الزمن تلقائيًا، من خلال دمج الطبقة المقترحة مع وحدة تكرارية موجهة ثنائية الاتجاه (bidirectional gated recurrent unit). وباستخدام ملاحظات التصنيف الناتجة عن الإطارات المتتالية (أي التي تنتمي إلى نفس الحدث)، يُمكن للطريقة المقترحة تقليل التصنيفات الخاطئة بشكل كبير. وقد أجرينا تجارب على مجموعتي بيانات عامة هما MIVIA Audio Events وMIVIA Road Events، وتم التأكيد على فعالية نهجنا مقارنةً بالطرق المتطورة الحالية.

DENet: بنية عميقة لتطبيقات المراقبة الصوتية | أحدث الأوراق البحثية | HyperAI