HyperAIHyperAI
منذ 8 أيام

التعلم المُتَناوِلِ المُتَّسِقِ المُتَأَثِّرِ بالصِّيغةِ مع التَّعْلِيمِ الذَّاتِيِّ المُتَّسِقِ للكشف الضعيف المُوجَّهِ بالصَّوْتِ والصورةِ عن العنف

Jiashuo Yu, Jinyu Liu, Ying Cheng, Rui Feng, Yuejie Zhang
التعلم المُتَناوِلِ المُتَّسِقِ المُتَأَثِّرِ بالصِّيغةِ مع التَّعْلِيمِ الذَّاتِيِّ المُتَّسِقِ للكشف الضعيف المُوجَّهِ بالصَّوْتِ والصورةِ عن العنف
الملخص

يهدف الكشف الضعيف المراقب عن العنف الصوتي البصري إلى التمييز بين المقاطع التي تحتوي على أحداث عنف متعددة الوسائط باستخدام تسميات على مستوى الفيديو. تقوم العديد من الدراسات السابقة بدمج وتفاعل الوسائط الصوتية والبصرية بطريقة مبكرة أو متوسطة، لكنها تتجاهل التفاوت بين الوسائط في بيئة التدريب الضعيف المراقب. في هذه الورقة، نحلل ظاهرتي التزامن غير المتماثل بين الوسائط والInstances غير المميزة في إجراء التعلم متعدد الحزم (MIL)، وندرس تأثيرها السلبي على التعلم متعدد الوسائط الضعيف المراقب. ولحل هذه المشكلات، نقترح استراتيجية تعلم الحزم التمييزية الواعية بالوسائط مع التعلم الذاتي للإذابة (MACIL-SD). بشكل خاص، نستخدم شبكة ذات تدفقين خفيفة الوزن لإنشاء "أكياس" صوتية وبصرية، حيث يتم تجميع الحالات غير المتميزة (الخلفية، العنيفة، والعادية) في "أكياس شبهية" بطريقة غير مراقبة. ثم يتم تجميع تمثيلات الأكياس الشبهية العنيفة الصوتية والبصرية كأزواج إيجابية، بينما تُستخدم الأكياس الشبهية العنيفة مع الحالات الخلفية والعادية في الوسائط المعاكسة كأزواج سلبية للتمييز. علاوة على ذلك، يتم تطبيق وحدة تعلم ذاتي للإذابة لنقل المعرفة البصرية الأحادية إلى النموذج متعدد الوسائط، مما يقلل من الضوضاء ويضيق الفجوة الدلالية بين التمثيلات الأحادية والمتعددة الوسائط. أظهرت التجارب أن إطارنا يتفوق على الطرق السابقة بتعقيد أقل على مجموعة بيانات XD-Violence الضخمة، كما أظهرت النتائج أن النهج المقترح يمكن استخدامه كوحدات قابلة للتركيب لتعزيز الشبكات الأخرى. يمكن الوصول إلى الشيفرة من خلال الرابط: https://github.com/JustinYuu/MACIL_SD.

التعلم المُتَناوِلِ المُتَّسِقِ المُتَأَثِّرِ بالصِّيغةِ مع التَّعْلِيمِ الذَّاتِيِّ المُتَّسِقِ للكشف الضعيف المُوجَّهِ بالصَّوْتِ والصورةِ عن العنف | أحدث الأوراق البحثية | HyperAI