HyperAIHyperAI

Command Palette

Search for a command to run...

ONE-PEACE: استكشاف نموذج تمثيل عام واحد نحو وسائط غير محدودة

Peng Wang Shijie Wang Junyang Lin Shuai Bai Xiaohuan Zhou Jingren Zhou Xinggang Wang Chang Zhou

الملخص

في هذه الدراسة، نستكشف طريقة قابلة للتوسع لبناء نموذج تمثيلي عام يُمكّن من التعامل مع عدد غير محدود من الوسائط. نُطلق نموذج ONE-PEACE، وهو نموذج قابل للتوسيع بشكل كبير يحتوي على 4 مليار معامل، ويُتيح التماثل السلس ودمج التمثيلات عبر الوسائط البصرية، والصوتية، واللغوية. يتكوّن هيكل ONE-PEACE من وحدات مُعدّلة حسب الوسائط (modality adapters)، وطبقات انتباه ذاتي مشتركة (shared self-attention layers)، ووحدات تابعة للوسائط (modality FFNs). يتيح هذا التصميم إمكانية إضافة وسائط جديدة بسهولة من خلال إضافة وحدات مُعدّلة ووحدات FFNs، في حين يُمكّن من دمج الوسائط المتعددة عبر طبقات الانتباه الذاتي. لتدريب ONE-PEACE مسبقًا، طوّرنا مهمتين مُعدّمتين للوسائط (modality-agnostic pretraining tasks): "المحاذاة المتقاطعة بالمقارنة" (cross-modal aligning contrast) و"التنقية المتقاطعة داخل الوسائط" (intra-modal denoising contrast)، اللتين تُسهمان في محاذاة الفضاء المعاني بين الوسائط المختلفة، وتسجّل التفاصيل الدقيقة داخل كل وسائط في آنٍ واحد. وبفضل البنية القابلة للتوسع ومهام التدريب المسبق، يمتلك ONE-PEACE إمكانية التوسع نحو عدد غير محدود من الوسائط. وبلا استخدام أي نموذج مُدرّب مسبقًا في مجالات البصر أو اللغة كمُدخلات أولية، يحقق ONE-PEACE نتائج رائدة في مجموعة واسعة من المهام الأحادية والمتعددة الوسائط، بما في ذلك تصنيف الصور (ImageNet)، والترميز الدلالي (ADE20K)، واسترجاع النص الصوتي (AudioCaps، Clotho)، وتصنيف الصوت (ESC-50، FSD50K، VGGSound)، والإجابة على الأسئلة الصوتية (AVQA)، واسترجاع الصور والنصوص (MSCOCO، Flickr30K)، والتموضع البصري (RefCOCO/+/g). يُمكن الاطلاع على الكود عبر الرابط: https://github.com/OFA-Sys/ONE-PEACE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp