منذ 11 أيام

أوتر: نموذج متعدد الوسائط يعتمد على التدريب التوجيهي السياقي

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu

الملخص

أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات عامة ملحوظة كناشئين قادرين على التعلم بقليل أو بدون أمثلة (few/zero-shot) في مهام متنوعة، وذلك بفضل تدريبها المسبق على كميات هائلة من البيانات النصية، كما هو مثال على نموذج GPT-3 الذي تطور إلى InstructGPT وChatGPT، حيث تمكّن من اتباع التعليمات بلغة طبيعية لإنجاز مهام واقعية. في هذه الورقة، نقترح إدخال عملية التخصيص حسب التعليمات (instruction tuning) إلى النماذج متعددة الوسائط، مستمدين الحافز من تنسيق البيانات التدريبية المُتداخلة في النموذج Flamingo. ونتبع نهجًا مشابهًا لبناء مجموعة بياناتنا المُسمّاة MultI-Modal In-Context Instruction Tuning (MIMIC-IT). ثم نقدّم نموذج Otter، وهو نموذج متعدد الوسائط مبني على OpenFlamingo (النسخة المفتوحة المصدر لنموذج DeepMind Flamingo)، مدرب على مجموعة MIMIC-IT، ويُظهر تحسّنًا ملحوظًا في القدرة على اتباع التعليمات والتعلم ضمن السياق (in-context learning). كما قمنا بتحسين تنفيذ OpenFlamingo لصالح الباحثين، مما يُقلّل من الموارد المطلوبة للتدريب من 1 وحدة معالجة رسومية A100 إلى 4 وحدات معالجة رسومية RTX-3090، كما قمنا بدمج كل من OpenFlamingo وOtter في مكتبة Huggingface Transformers، لتمكين الباحثين من دمج هذه النماذج بسهولة في خطوط أنابيب التدريب والاستنتاج المخصصة لديهم.