HyperAIHyperAI
منذ 2 أشهر

تعلم هياكل الارتباط لتحويلات الرؤية

Kim, Manjin ; Seo, Paul Hongsuck ; Schmid, Cordelia ; Cho, Minsu
تعلم هياكل الارتباط لتحويلات الرؤية
الملخص

نقدم آلية انتباه جديدة، أطلقنا عليها اسم الانتباه الذاتي الهيكلي (StructSA)، والتي تستفيد من أنماط الارتباط الغنية التي تظهر بشكل طبيعي في تفاعلات المفتاح-الاستعلام في عمليات الانتباه. تقوم StructSA بإنشاء خرائط الانتباه من خلال التعرف على البُنى الزمانية-المكانية لارتباطات المفاتيح والاستعلامات عبر التحويل الإدغامي (convolution) واستخدامها لتجميع السياقات المحلية لميزات القيمة بشكل ديناميكي. هذا يُمكن من الاستفادة الفعالة من الأنماط الهيكلية الغنية في الصور والفيديوهات مثل تخطيط المشهد، حركة الأشياء، وعلاقات الأشياء بين بعضها البعض. باستخدام StructSA كعنصر أساسي، طوّرنا متحول الرؤية الهيكلي (StructViT) وتقدمنا بتقييم فعاليته في مهام تصنيف الصور والفديوهات، مما أدى إلى تحقيق نتائج رائدة على مجموعات بيانات ImageNet-1K، Kinetics-400، Something-Something V1 & V2، Diving-48، و FineGym.