HyperAIHyperAI
منذ 8 أيام

OmniTokenizer: مُحَوِّل صور-فيديوهات مُشترَك لتحرير الصور البصرية

Junke Wang, Yi Jiang, Zehuan Yuan, Binyue Peng, Zuxuan Wu, Yu-Gang Jiang
OmniTokenizer: مُحَوِّل صور-فيديوهات مُشترَك لتحرير الصور البصرية
الملخص

يُعدّ المُحلّل النصّي (Tokenizer)، كمترجم يحوّل البيانات البصرية المعقدة إلى فضاء لاتيني مكثّف، العمود الفقري للنماذج التوليدية البصرية. استنادًا إلى الملاحظة التي تفيد بأن المحلّلات النصية الحالية مُصممة خصيصًا لبيانات الصور أو الفيديو، تقدّم هذه الورقة مُحلّلًا نصيًا مُوحّدًا يُسمّى OmniTokenizer، مبني على معمارية المحولات (Transformer) لمعالجة التجزئة الموحّدة للصور والفيديوهات. تم تصميم OmniTokenizer ببنية مفصّلة فضائيًا زمنيًا، تدمج بين انتباه النافذة (window attention) والانتباه السببي (causal attention) لتمثيل الجوانب الفضائية والزمنية على التوالي. وللاستفادة من الطبيعة المكملة لبيانات الصور والفيديوهات، نقترح استراتيجية تدريب تدريجية، حيث يتم تدريب OmniTokenizer أولًا على بيانات الصور بحلّة ثابتة لتطوير قدرته على تمثيل الجوانب الفضائية، ثم يُدرّب بشكل مشترك على بيانات الصور والفيديوهات بحلّات متعددة لاستيعاب الديناميات الزمنية. يُعدّ OmniTokenizer أول مُحلّل نصي يتعامل مع كلا نوعي المدخلات (الصور والفيديوهات) ضمن إطار موحد، ويُثبت إمكانية تحقيق تآزر بينهما. تُظهر التجارب الواسعة أن OmniTokenizer يحقق أداءً متفوّقًا (SOTA) في إعادة البناء على مختلف مجموعات بيانات الصور والفيديوهات، مثل تحقيق مؤشر FID مُعادل 1.11 على ImageNet و42 على UCF-101، متفوّقًا على أفضل الطرق السابقة بنسبة 13% و26% على التوالي. بالإضافة إلى ذلك، نُظهر أن دمج OmniTokenizer مع النماذج اللغوية أو نماذج التفريغ (Diffusion Models) يُمكن من تحقيق أداء متقدّم في التوليد البصري، مما يُبرز الميزة والقابلية العالية لطرقنا. يُمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/FoundationVision/OmniTokenizer.

OmniTokenizer: مُحَوِّل صور-فيديوهات مُشترَك لتحرير الصور البصرية | أحدث الأوراق البحثية | HyperAI