HyperAIHyperAI
منذ 11 أيام

ONE-PEACE: استكشاف نموذج تمثيل عام واحد نحو وسائط غير محدودة

Peng Wang, Shijie Wang, Junyang Lin, Shuai Bai, Xiaohuan Zhou, Jingren Zhou, Xinggang Wang, Chang Zhou
ONE-PEACE: استكشاف نموذج تمثيل عام واحد نحو وسائط غير محدودة
الملخص

في هذه الدراسة، نستكشف طريقة قابلة للتوسع لبناء نموذج تمثيلي عام يُمكّن من التعامل مع عدد غير محدود من الوسائط. نُطلق نموذج ONE-PEACE، وهو نموذج قابل للتوسيع بشكل كبير يحتوي على 4 مليار معامل، ويُتيح التماثل السلس ودمج التمثيلات عبر الوسائط البصرية، والصوتية، واللغوية. يتكوّن هيكل ONE-PEACE من وحدات مُعدّلة حسب الوسائط (modality adapters)، وطبقات انتباه ذاتي مشتركة (shared self-attention layers)، ووحدات تابعة للوسائط (modality FFNs). يتيح هذا التصميم إمكانية إضافة وسائط جديدة بسهولة من خلال إضافة وحدات مُعدّلة ووحدات FFNs، في حين يُمكّن من دمج الوسائط المتعددة عبر طبقات الانتباه الذاتي. لتدريب ONE-PEACE مسبقًا، طوّرنا مهمتين مُعدّمتين للوسائط (modality-agnostic pretraining tasks): "المحاذاة المتقاطعة بالمقارنة" (cross-modal aligning contrast) و"التنقية المتقاطعة داخل الوسائط" (intra-modal denoising contrast)، اللتين تُسهمان في محاذاة الفضاء المعاني بين الوسائط المختلفة، وتسجّل التفاصيل الدقيقة داخل كل وسائط في آنٍ واحد. وبفضل البنية القابلة للتوسع ومهام التدريب المسبق، يمتلك ONE-PEACE إمكانية التوسع نحو عدد غير محدود من الوسائط. وبلا استخدام أي نموذج مُدرّب مسبقًا في مجالات البصر أو اللغة كمُدخلات أولية، يحقق ONE-PEACE نتائج رائدة في مجموعة واسعة من المهام الأحادية والمتعددة الوسائط، بما في ذلك تصنيف الصور (ImageNet)، والترميز الدلالي (ADE20K)، واسترجاع النص الصوتي (AudioCaps، Clotho)، وتصنيف الصوت (ESC-50، FSD50K، VGGSound)، والإجابة على الأسئلة الصوتية (AVQA)، واسترجاع الصور والنصوص (MSCOCO، Flickr30K)، والتموضع البصري (RefCOCO/+/g). يُمكن الاطلاع على الكود عبر الرابط: https://github.com/OFA-Sys/ONE-PEACE.

ONE-PEACE: استكشاف نموذج تمثيل عام واحد نحو وسائط غير محدودة | أحدث الأوراق البحثية | HyperAI