HyperAIHyperAI
منذ 17 أيام

TokenLearner: ما الذي يمكن أن تفعله 8 رموز مُتعلمة للصور والفيديوهات؟

Michael S. Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, Anelia Angelova
TokenLearner: ما الذي يمكن أن تفعله 8 رموز مُتعلمة للصور والفيديوهات؟
الملخص

في هذه الورقة، نقدم تمثيلًا بصريًا جديدًا يعتمد على عدد قليل من الرموز التي تُتعلم تلقائيًا، ويمكن تطبيقه على مهام فهم الصور والفيديوهات على حد سواء. بدلًا من الاعتماد على استراتيجيات تقسيم مصممة يدويًا لاستخراج الرموز البصرية ومعالجة عدد كبير من اللوحات المُستمَرة عينةً للانتباه، فإن نهجنا يتعلم استخراج الرموز المهمة داخل البيانات البصرية. هذا يؤدي إلى اكتشاف فعّال وكفؤ لعدد قليل من الرموز البصرية المهمة، ويتيح نمذجة الانتباه الزوجي بين هذه الرموز عبر فترات زمنية أطول في الفيديوهات، أو المحتوى المكاني في الصور. تُظهر تجاربنا أداءً قويًا على عدة معايير صعبة لمهام التعرف على الصور والفيديوهات. وبشكل مهم، وبسبب طبيعة الرموز التكيفية لدينا، نحقق نتائج تنافسية مع تقليل كبير في الاستهلاك الحسابي. نحصل على نتائج مماثلة للحالة المتقدمة (state-of-the-art) على ImageNet مع كفاءة حسابية أعلى. كما نؤكد فعالية النهج على عدة مجموعات بيانات فيديو، بما في ذلك Kinetics-400 وKinetics-600 وCharades وAViD.الكود متاح على: https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner

TokenLearner: ما الذي يمكن أن تفعله 8 رموز مُتعلمة للصور والفيديوهات؟ | أحدث الأوراق البحثية | HyperAI