OFA: توحيد الهندسات والمهام والأوضاع من خلال إطار بسيط للتعلم التتابعي

في هذا العمل، نسعى لتحقيق نموذج موحد للتدريب متعدد الوسائط لكسر هيكلات التخصيص المعقدة المحددة للمهمة/الوسيلة. نقترح استخدام OFA، وهو إطار غير محدد بالمهمة وغير محدد بالوسيلة يدعم الشمولية في المهام. OFA يوحّد مجموعة متنوعة من المهام البينية-الوسائطية والمهام الأحادية-الوسائطية، بما في ذلك توليد الصور، وتثبيت البصر، وكتابة تعليقات الصور، تصنيف الصور، ونمذجة اللغة، إلخ، في إطار بسيط للتعلم من سلسلة إلى سلسلة. يتبع OFA التعلم القائم على التعليمات في مرحلتي التدريب الأولي والتدقيق النهائي، ولا يحتاج إلى طبقات إضافية خاصة بالمهمة للمهام اللاحقة. بالمقارنة مع النماذج الحديثة الرائدة في مجال الرؤية واللغة التي تعتمد على قواعد بيانات بينية-وسائطية ضخمة للغاية، يتم تدريب OFA بشكل أولي على 20 مليون زوج فقط من الصور والنصوص المتاحة علنًا. رغم بساطته وحجم البيانات التدريبية النسبي الأصغر، حقق OFA أفضل النتائج الجديدة في سلسلة من المهام البينية-الوسائطية بينما أظهر أداءً تنافسيًا عاليًا في المهام الأحادية-الوسائطية. تشير تحليلاتنا الإضافية إلى أن OFA يمكنه أيضًا الانتقال بكفاءة إلى مهمات غير مشاهدة وأقاليم غير مشاهدة. رمز البرمجيات والنماذج متاحة للعامة على الرابط https://github.com/OFA-Sys/OFA.