الهندسة المعمارية في متحف الفن الحديث
تم اقتراح إطار عمل MoMa (الاسم الكامل: مزيج من الخبراء المهتمين بالوسيلة) بواسطة Meta في الورقة البحثية "MoMa: تدريب مسبق فعال على الاندماج المبكر مع مزيج من الخبراء المهتمين بالوسيلة العلاجية"اقترح مزيجًا جديدًا من الخبراء (MoE) على دراية بالوسائط، مصمم للتدريب المسبق على نماذج اللغة المبكرة المختلطة الوسائط.
تقوم MoMa بمعالجة تسلسلات عشوائية من الصور والنصوص عن طريق تقسيم وحدات الخبراء إلى مجموعات خاصة بكل وحدة. تتخصص هذه المجموعات في معالجة العلامات المحددة، في حين يتم استخدام التوجيه المكتسب داخل كل مجموعة للحفاظ على القدرة على التكيف مع المعلومات الدلالية. تظهر نتائجنا أن كفاءة ما قبل التدريب تتحسن بشكل كبير من خلال تخصيص المعلمات الخاصة بالوسيلة هذه. بميزانية تدريب مصنفة تبلغ تريليون دولار، يحقق نموذج MoMa 1.4B مع 4 خبراء في النصوص و4 خبراء في الصور توفيرًا في FLOP يبلغ 3.7x بشكل عام، و2.6x للنصوص و5.2x لمعالجة الصور، مقارنة بخط الأساس الكثيف المكافئ للحوسبة، والذي يتم قياسه من خلال خسارة ما قبل التدريب. يتفوق هذا على اختيار الخبراء القياسي MoE مع 8 خبراء متعددي الوسائط، مما يحقق 3 أضعاف إجمالي توفير FLOP (3 أضعاف للنص و2.8 ضعف للصور). يؤدي الجمع بين MoMa وMixed-by-Deep (MoD) إلى توفير المزيد من FLOPs قبل التدريب إلى 4.2x إجمالاً (النص: 3.4x، الصورة: 5.3x)، على الرغم من أن هذا الجمع يؤدي إلى تدهور أداء الاستدلال السببي بسبب الحساسية المتزايدة لدقة جهاز التوجيه. تشير هذه النتائج إلى أن MoMa لديه القدرة على تحسين كفاءة التدريب المسبق لنموذج اللغة المختلط الوضع والاندماج المبكر بشكل كبير، مما يمهد الطريق لأنظمة الذكاء الاصطناعي المتعددة الوسائط الأكثر كفاءة في استخدام الموارد وأكثر قوة.