إميو: التدريب التوليدي في متعدد الوسائط

نقدم نموذج Emu، وهو نموذج أساسي متعدد الوسائط يستند إلى معمارية Transformer، قادر على إنشاء الصور والنصوص بسلاسة في سياق متعدد الوسائط. يمكن لهذا النموذج الشامل تلقي أي بيانات من وسيلة واحدة أو متعددة الوسائط دون تمييز (مثل الصور والنصوص والفيديوهات المترابطة) عبر عملية تدريب ذاتية راجعة تناسب جميع الأغراض. أولاً، يتم ترميز الإشارات البصرية إلى تمثيلات (embeddings)، والتي تتجمع مع رموز النص لتشكيل تسلسل مدخلات مترابط. ثم يتم تدريب Emu بشكل شامل من البداية إلى النهاية بهدف موحد يشمل تصنيف الرمز النصي التالي أو تقدير التمثيل البصري التالي في التسلسل المتعدد الوسائط. هذه القدرة المتعددة الوسائط المتنوعة تعزز استكشاف مصادر البيانات الأولية المتنوعة على نطاق واسع، مثل الفيديوهات التي تحتوي على إطار زمني ونص مترابط، الصفحات الإلكترونية التي تحتوي على صور ونصوص مترابطة، بالإضافة إلى أزواج الصور-النصوص وأزواج الفيديو-النصوص على نطاق الإنترنت. يمكن استخدام Emu كواجهة متعددة الوسائط عامة للأعمال المتعلقة بإنشاء النصوص من الصور وإنشاء الصور من النصوص، ويدعم إنشاء الصور والنصوص في السياق. وعلى مدى مجموعة واسعة من المهام بدون أمثلة أو بمجموعة قليلة من الأمثلة، بما في ذلك كتابة التعليقات على الصور والإجابة عن الأسئلة المرتبطة بالصور والإجابة عن الأسئلة المرتبطة بالفيديوهات وإنشاء الصور من النصوص، يظهر Emu أداءً فائقًا مقارنة بأنماط متعددة الوسائط الكبيرة الحجم والمتطورة. كما تم عرض قدرات ممتدة مثل المساعدين المتعددين للوسائط عبر ضبط التعليمات بأداء رائع.