منذ 6 أشهر

الملخص

في هذه الورقة، نقدم تمثيلًا بصريًا جديدًا يعتمد على عدد قليل من الرموز التي تُتعلم تلقائيًا، ويمكن تطبيقه على مهام فهم الصور والفيديوهات على حد سواء. بدلًا من الاعتماد على استراتيجيات تقسيم مصممة يدويًا لاستخراج الرموز البصرية ومعالجة عدد كبير من اللوحات المُستمَرة عينةً للانتباه، فإن نهجنا يتعلم استخراج الرموز المهمة داخل البيانات البصرية. هذا يؤدي إلى اكتشاف فعّال وكفؤ لعدد قليل من الرموز البصرية المهمة، ويتيح نمذجة الانتباه الزوجي بين هذه الرموز عبر فترات زمنية أطول في الفيديوهات، أو المحتوى المكاني في الصور. تُظهر تجاربنا أداءً قويًا على عدة معايير صعبة لمهام التعرف على الصور والفيديوهات. وبشكل مهم، وبسبب طبيعة الرموز التكيفية لدينا، نحقق نتائج تنافسية مع تقليل كبير في الاستهلاك الحسابي. نحصل على نتائج مماثلة للحالة المتقدمة (state-of-the-art) على ImageNet مع كفاءة حسابية أعلى. كما نؤكد فعالية النهج على عدة مجموعات بيانات فيديو، بما في ذلك Kinetics-400 وKinetics-600 وCharades وAViD.الكود متاح على: https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار