Command Palette
Search for a command to run...
Yanzuo Lu Xin Xia Manlin Zhang Huafeng Kuang Jianbin Zheng Yuxi Ren Xuefeng Xiao

الملخص
لقد لاقت النماذج متعددة الوسائط الموحدة اهتمامًا كبيرًا مؤخرًا بفضل قدراتها البارزة في فهم وإنتاج محتوى متنوع بشكل مشترك. ومع ذلك، مع تزايد عدد الرموز المتعددة الوسائط المتشابكة داخل السياقات، تفرض العمليات التكرارية لتنقية التشتت (diffusion denoising) وفك التشفير التلقائي (autoregressive decoding) عبئًا حسابيًا كبيرًا. ولحل هذه المشكلة، نقترح "Hyper-Bagel"، وهي إطار موحد للتسريع مصمم لتسريع المهام المتعلقة بفهم وإنتاج المحتوى متعدد الوسائط في آنٍ واحد. تعتمد طريقتنا على استراتيجية التقسيم والانتصار، حيث تُستخدم تقنية التنبؤ بالرمز التالي (speculative decoding) لتقدير الرمز التالي، وتُطبّق عملية تقطيع متعددة المراحل (multi-stage distillation) لتنقية التشتت. يحقق الإطار مكاسب أداء كبيرة، حيث يُحقق تسريعًا يتجاوز الضعف (2x) في مهام فهم المحتوى متعدد الوسائط. أما في المهام الإبداعية، فإن النموذج الخالي من الخسارة (lossless) بـ 6 خطوات تنشيط (6-NFE) الذي نحصل عليه يحقق تسريعًا بنسبة 16.67 مرة في إنشاء الصور من النص، وبنسبة 22 مرة في تحرير الصور، مع الحفاظ على جودة الإخراج العالية للنموذج الأصلي. كما نطور نموذجًا فعّالًا للغاية بخطوة تنشيط واحدة (1-NFE)، مما يمكّن من تحرير وإنشاء تفاعليين تقريبًا في الزمن الحقيقي. وبدمج تقنيات التقطيع العدواني المتقدمة مع تعلم التغذية الراجعة البشرية، يحقق هذا النموذج أعلى كفاءة تكلفة واستجابة، مما يجعل التفاعلات متعددة الوسائط المعقدة سلسة وفورية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.