HyperAIHyperAI

Command Palette

Search for a command to run...

TokenLearner: ما الذي يمكن أن تفعله 8 رموز مُتعلمة للصور والفيديوهات؟

Michael S. Ryoo AJ Piergiovanni Anurag Arnab Mostafa Dehghani Anelia Angelova

الملخص

في هذه الورقة، نقدم تمثيلًا بصريًا جديدًا يعتمد على عدد قليل من الرموز التي تُتعلم تلقائيًا، ويمكن تطبيقه على مهام فهم الصور والفيديوهات على حد سواء. بدلًا من الاعتماد على استراتيجيات تقسيم مصممة يدويًا لاستخراج الرموز البصرية ومعالجة عدد كبير من اللوحات المُستمَرة عينةً للانتباه، فإن نهجنا يتعلم استخراج الرموز المهمة داخل البيانات البصرية. هذا يؤدي إلى اكتشاف فعّال وكفؤ لعدد قليل من الرموز البصرية المهمة، ويتيح نمذجة الانتباه الزوجي بين هذه الرموز عبر فترات زمنية أطول في الفيديوهات، أو المحتوى المكاني في الصور. تُظهر تجاربنا أداءً قويًا على عدة معايير صعبة لمهام التعرف على الصور والفيديوهات. وبشكل مهم، وبسبب طبيعة الرموز التكيفية لدينا، نحقق نتائج تنافسية مع تقليل كبير في الاستهلاك الحسابي. نحصل على نتائج مماثلة للحالة المتقدمة (state-of-the-art) على ImageNet مع كفاءة حسابية أعلى. كما نؤكد فعالية النهج على عدة مجموعات بيانات فيديو، بما في ذلك Kinetics-400 وKinetics-600 وCharades وAViD.الكود متاح على: https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp