منذ 11 أيام

MIMIC-IT: التوجيه متعدد الوسائط في السياق

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu

الملخص

التعليمات عالية الجودة والإجابات المناسبة ضرورية لتحسين الأداء في المهام المبنية على اللغة الطبيعية التفاعلية للنماذج اللغوية الكبيرة، خاصة في المهام البصرية-اللغوية التفاعلية التي تتضمن مشاهد بصرية معقدة. في هذه الحالة، يُعد توفر كمية كبيرة من أزواج التعليمات والإجابات المتنوعة والإبداعية أمرًا بالغ الأهمية لضبط النماذج البصرية-اللغوية (VLMs). ومع ذلك، ما زال توفر أزواج التعليمات والإجابات البصرية-اللغوية من حيث الكمية، والتنوع، والإبداع محدودًا، مما يشكل تحديًا أمام قدرة النماذج التفاعلية على التعميم. في هذا العمل، نقدّم مجموعة بيانات تُسمى MultI-Modal In-Context Instruction Tuning (MIMIC-IT)، والتي تتضمن 2.8 مليون زوجًا من التعليمات والإجابات متعددة الوسائط، منها 2.2 مليون تعليمات فريدة تم استخلاصها من الصور والفيديوهات. ويتم دعم كل زوج بمعلومات متعددة الوسائط داخل السياق (in-context)، مما يشكّل سياقات تفاعلية تهدف إلى تمكين النماذج البصرية-اللغوية من التفاعل في مجالات الإدراك، والاستدلال، والتخطيط. يُسمّى عملية جمع أزواج التعليمات والإجابات بـ "Syphus"، وهي مُدرَجة باستخدام نموذج تسمية آلي يدمج الخبرة البشرية مع قدرات نموذج GPT. وباستخدام مجموعة بيانات MIMIC-IT، قمنا بتدريب نموذج بصرية-لغوية كبير يُدعى Otter. وقد أظهرت تقييمات واسعة النطاق على معايير مهام البصرية-اللغة أن نموذج Otter يتميّز بأداء متميز في الإدراك متعدد الوسائط، والاستدلال، والتعلم داخل السياق. كما أظهر التقييم البشري أنه يتماشى بشكل فعّال مع نوايا المستخدم. ونُعلن عن إتاحة مجموعة بيانات MIMIC-IT، وآلية جمع أزواج التعليمات والإجابات، والمعايير، والنموذج Otter.