شبكة الانتباه المتعددة للتمييز الكائنات المرجعية في الفيديو المضغوط

يهدف التصنيف المرجعي لكائنات الفيديو إلى فصل الكائن المذكور في تعبير لغوي معطى. تُعد الطرق الحالية تتطلب تفكيك تدفق الفيديو المضغوط إلى إطارات RGB قبل التصنيف، مما يزيد من متطلبات الحوسبة والتخزين، ويؤدي في النهاية إلى تباطؤ عملية الاستنتاج. وقد يعيق هذا التطبيق في السياقات الواقعية التي تتميز بموارد حوسبة محدودة، مثل السيارات ذاتية القيادة والطائرات غير المأهولة. لتحسين هذه المشكلة، نستعرض في هذه الورقة مهمة تصنيف الكائن المرجعي على الفيديوهات المضغوطة، أي على تدفق البيانات الأصلي للفيديو. بالإضافة إلى الصعوبة الجوهرية الخاصة بمهام تصنيف كائنات الفيديو المرجعية، فإن الحصول على تمثيل تمييزي من الفيديو المضغوط يُعد أيضًا تحديًا كبيرًا. ولحل هذه المشكلة، نقترح شبكة متعددة الانتباه (MANet) تتكون من وحدة انتباه مزدوجة المسار ومزدوجة الانتباه، ووحدة تحويلية متعددة الوسائط قائمة على الاستفسار. بشكل خاص، تم تصميم وحدة الانتباه المزدوجة المسار والمزدوجة الانتباه لاستخراج تمثيل فعّال من البيانات المضغوطة في ثلاث وسائط: الإطار I، متجهات الحركة، والباقي. وتعمل وحدة التحويلية متعددة الوسائط القائمة على الاستفسار أولاً على نمذجة الارتباط بين الوسائط اللغوية والبصرية، ثم تُستخدم الميزات المدمجة متعددة الوسائط لتوجيه استفسارات الكائنات لتكوين نواة ديناميكية واعية بالمحتوى، وتوقع قناعات التصنيف النهائية. على عكس الطرق السابقة، نقترح تعلم نواة واحدة فقط، مما يزيل الإجراء المعقد لتماثل القناع بعد المعالجة المستخدم في الطرق الحالية. وتُظهر النتائج التجريبية الواسعة والواعدة على ثلاث مجموعات بيانات صعبة فعالية طريقة我们的 مقارنةً بطرق متقدمة عديدة تم اقتراحها لمعالجة البيانات RGB. يمكن الوصول إلى الكود المصدري من خلال: https://github.com/DexiangHong/MANet.