HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم هياكل الارتباط لتحويلات الرؤية

Manjin Kim Paul Hongsuck Seo Cordelia Schmid Minsu Cho

الملخص

نقدم آلية انتباه جديدة، أطلقنا عليها اسم الانتباه الذاتي الهيكلي (StructSA)، والتي تستفيد من أنماط الارتباط الغنية التي تظهر بشكل طبيعي في تفاعلات المفتاح-الاستعلام في عمليات الانتباه. تقوم StructSA بإنشاء خرائط الانتباه من خلال التعرف على البُنى الزمانية-المكانية لارتباطات المفاتيح والاستعلامات عبر التحويل الإدغامي (convolution) واستخدامها لتجميع السياقات المحلية لميزات القيمة بشكل ديناميكي. هذا يُمكن من الاستفادة الفعالة من الأنماط الهيكلية الغنية في الصور والفيديوهات مثل تخطيط المشهد، حركة الأشياء، وعلاقات الأشياء بين بعضها البعض. باستخدام StructSA كعنصر أساسي، طوّرنا متحول الرؤية الهيكلي (StructViT) وتقدمنا بتقييم فعاليته في مهام تصنيف الصور والفديوهات، مما أدى إلى تحقيق نتائج رائدة على مجموعات بيانات ImageNet-1K، Kinetics-400، Something-Something V1 & V2، Diving-48، و FineGym.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp