TokenLearner: ما الذي يمكن أن تفعله 8 رموز مُتعلمة للصور والفيديوهات؟

في هذه الورقة، نقدم تمثيلًا بصريًا جديدًا يعتمد على عدد قليل من الرموز التي تُتعلم تلقائيًا، ويمكن تطبيقه على مهام فهم الصور والفيديوهات على حد سواء. بدلًا من الاعتماد على استراتيجيات تقسيم مصممة يدويًا لاستخراج الرموز البصرية ومعالجة عدد كبير من اللوحات المُستمَرة عينةً للانتباه، فإن نهجنا يتعلم استخراج الرموز المهمة داخل البيانات البصرية. هذا يؤدي إلى اكتشاف فعّال وكفؤ لعدد قليل من الرموز البصرية المهمة، ويتيح نمذجة الانتباه الزوجي بين هذه الرموز عبر فترات زمنية أطول في الفيديوهات، أو المحتوى المكاني في الصور. تُظهر تجاربنا أداءً قويًا على عدة معايير صعبة لمهام التعرف على الصور والفيديوهات. وبشكل مهم، وبسبب طبيعة الرموز التكيفية لدينا، نحقق نتائج تنافسية مع تقليل كبير في الاستهلاك الحسابي. نحصل على نتائج مماثلة للحالة المتقدمة (state-of-the-art) على ImageNet مع كفاءة حسابية أعلى. كما نؤكد فعالية النهج على عدة مجموعات بيانات فيديو، بما في ذلك Kinetics-400 وKinetics-600 وCharades وAViD.الكود متاح على: https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner