HyperAIHyperAI
منذ 17 أيام

GRAtt-VIS: انتباه مُتَعَبِّر مُتَنَوِّع مُتَوَزِّن لتصحيح تلقائي لتقسيم الفيديو حسب المثيل

Tanveer Hannan, Rajat Koner, Maximilian Bernhard, Suprosanna Shit, Bjoern Menze, Volker Tresp, Matthias Schubert, Thomas Seidl
GRAtt-VIS: انتباه مُتَعَبِّر مُتَنَوِّع مُتَوَزِّن لتصحيح تلقائي لتقسيم الفيديو حسب المثيل
الملخص

شهدت الاتجاهات الحديثة في التجزئة المرئية للInstances (VIS) تزايد الاعتماد على الأساليب المباشرة (online methods) لتمثيل التسلسلات المرئية المعقدة والطويلة. ومع ذلك، فإن تدهور تمثيل البيانات وتكاثر الضوضاء الناتجة عن هذه الأساليب، خاصة أثناء التغطية (occlusion) والتغيرات المفاجئة، يشكل تحديات كبيرة. تقدم أساليب انتشار الاستفسارات القائمة على التحويل (Transformer-based query propagation) مسارات واعدة، ولكنها تتطلب ذاكرة انتباه تربيعية (quadratic memory attention)، وتميل إلى التدهور في خصائص الـinstances بسبب التحديات المذكورة أعلاه، كما تعاني من تأثيرات متراكمة (cascading effects). ما زال الكشف عن الأخطاء وتصحيحها مجالًا غير مكتمل الاستكشاف. وللإجابة على هذه الفجوة، نقدّم \textbf{GRAtt-VIS}، وهي \textbf{G}ated \textbf{R}esidual \textbf{Att}ention لـ\textbf{V}ideo \textbf{I}nstance \textbf{S}egmentation. أولاً، نستخدم مفتاحًا مبنيًا على Gumbel-Softmax للكشف عن الأخطاء المحتملة في الإطار الحالي. ثانياً، استنادًا إلى تفعيل هذا المفتاح، نُصلح الخصائص المتدهورة باستخدام التمثيل السابق للـinstance. وتُخفّف هذه البنية التلافيفية (residual configuration) الحاجة إلى ذاكرة مخصصة، وتوفر تدفقًا مستمرًا لخصائص الـinstances ذات الصلة. ثالثًا، نقترح تفاعلًا جديدًا بين الـinstances باستخدام تفعيل المفتاح كقناع لانتباه ذاتي (self-attention). يُعدّ هذا النهج القناعي (masking strategy) ديناميكيًا في تقييد الاستفسارات غير الممثلة جيدًا في الانتباه الذاتي، ويوفر الحفاظ على المعلومات الحيوية للاستدامة في التتبع الطويل الأمد. نشير إلى هذا التجميع الجديد بين الاتصال التلافيفي المُحكم (Gated Residual Connection) وانتباه ذاتي مُقنّع (Masked Self-Attention) باسم كتلة \textbf{GRAtt}، والتي يمكن دمجها بسهولة في الأطر القائمة على الانتشار (propagation-based framework). علاوةً على ذلك، تقلّل كتل GRAtt بشكل كبير من عبء الانتباه وتبسط نمذجة الزمن الديناميكية. تحقق GRAtt-VIS أداءً متقدمًا على مستوى التقنية (state-of-the-art) في مجموعتي بيانات YouTube-VIS وOVIS الصعبة للغاية، متفوّقةً بشكل ملحوظ على الطرق السابقة. يتوفر الكود على الرابط: \url{https://github.com/Tanveer81/GRAttVIS}.