HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

هايبر-باجل: إطار موحد لتسريع الفهم والإنشاء متعدد الوسائط

Yanzuo Lu Xin Xia Manlin Zhang Huafeng Kuang Jianbin Zheng Yuxi Ren Xuefeng Xiao

هايبر-باجل: إطار موحد لتسريع الفهم والإنشاء متعدد الوسائط

الملخص

لقد لاقت النماذج متعددة الوسائط الموحدة اهتمامًا كبيرًا مؤخرًا بفضل قدراتها البارزة في فهم وإنتاج محتوى متنوع بشكل مشترك. ومع ذلك، مع تزايد عدد الرموز المتعددة الوسائط المتشابكة داخل السياقات، تفرض العمليات التكرارية لتنقية التشتت (diffusion denoising) وفك التشفير التلقائي (autoregressive decoding) عبئًا حسابيًا كبيرًا. ولحل هذه المشكلة، نقترح "Hyper-Bagel"، وهي إطار موحد للتسريع مصمم لتسريع المهام المتعلقة بفهم وإنتاج المحتوى متعدد الوسائط في آنٍ واحد. تعتمد طريقتنا على استراتيجية التقسيم والانتصار، حيث تُستخدم تقنية التنبؤ بالرمز التالي (speculative decoding) لتقدير الرمز التالي، وتُطبّق عملية تقطيع متعددة المراحل (multi-stage distillation) لتنقية التشتت. يحقق الإطار مكاسب أداء كبيرة، حيث يُحقق تسريعًا يتجاوز الضعف (2x) في مهام فهم المحتوى متعدد الوسائط. أما في المهام الإبداعية، فإن النموذج الخالي من الخسارة (lossless) بـ 6 خطوات تنشيط (6-NFE) الذي نحصل عليه يحقق تسريعًا بنسبة 16.67 مرة في إنشاء الصور من النص، وبنسبة 22 مرة في تحرير الصور، مع الحفاظ على جودة الإخراج العالية للنموذج الأصلي. كما نطور نموذجًا فعّالًا للغاية بخطوة تنشيط واحدة (1-NFE)، مما يمكّن من تحرير وإنشاء تفاعليين تقريبًا في الزمن الحقيقي. وبدمج تقنيات التقطيع العدواني المتقدمة مع تعلم التغذية الراجعة البشرية، يحقق هذا النموذج أعلى كفاءة تكلفة واستجابة، مما يجعل التفاعلات متعددة الوسائط المعقدة سلسة وفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
هايبر-باجل: إطار موحد لتسريع الفهم والإنشاء متعدد الوسائط | الأوراق البحثية | HyperAI