RelayFormer: إطار انتباه موحد محلي-عالمي لتحديد المواقع القابل للتوسع في الصور والفيديوهات

تمثيل التلاعب البصري (VML) – سواء في الصور أو الفيديوهات – يُعد مهمة بالغة الأهمية في مجال التحقيق الرقمي، حيث تتمثل في تحديد المناطق التي تم تعديلها في المحتوى البصري. ومع ذلك، تفتقر الطرق الحالية غالبًا إلى القدرة على التعميم عبر الوسائط المختلفة، وتعاني من صعوبة في التعامل بكفاءة مع المدخلات عالية الدقة أو الطويلة المدة. نُقدّم "RelayFormer"، وهي بنية موحدة وقابلة للتركيب لتمثيل التلاعب البصري في الصور والفيديوهات. من خلال الاستفادة من وحدات محلية مرنة وآلية انتباه "الربط العالمي-المحلّي" (GLoRA)، تتيح هذه البنية معالجة قابلة للتوسع ومستقلة عن الدقة، مع قدرة قوية على التعميم. يتكامل إطارنا بسلاسة مع المحركات القائمة على Transformer، مثل ViT وSegFormer، من خلال وحدات تكييف خفيفة الوزن تتطلب تغييرات معمارية ضئيلة جدًا، مما يضمن التوافق دون تعطيل التمثيلات المُدرّبة مسبقًا. علاوة على ذلك، صممنا فكّرًا قناعيًا خفيف الوزن يستند إلى الاستفسارات، يدعم الاستنتاج الفوري (one-shot) عبر تسلسلات الفيديو بتعقيد خطي. وقد أظهرت التجارب الواسعة عبر عدة معايير أداءً متميّزًا في التمثيل، مُحدّدةً معيارًا جديدًا لتمثيل التلاعب البصري القابل للتوسع والمستقل عن الوسيط. يمكن الاطلاع على الكود من خلال الرابط التالي: هذا الرابط https URL.