HyperAIHyperAI

Command Palette

Search for a command to run...

MIMIC-IT: التوجيه متعدد الوسائط في السياق

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

الملخص

التعليمات عالية الجودة والإجابات المناسبة ضرورية لتحسين الأداء في المهام المبنية على اللغة الطبيعية التفاعلية للنماذج اللغوية الكبيرة، خاصة في المهام البصرية-اللغوية التفاعلية التي تتضمن مشاهد بصرية معقدة. في هذه الحالة، يُعد توفر كمية كبيرة من أزواج التعليمات والإجابات المتنوعة والإبداعية أمرًا بالغ الأهمية لضبط النماذج البصرية-اللغوية (VLMs). ومع ذلك، ما زال توفر أزواج التعليمات والإجابات البصرية-اللغوية من حيث الكمية، والتنوع، والإبداع محدودًا، مما يشكل تحديًا أمام قدرة النماذج التفاعلية على التعميم. في هذا العمل، نقدّم مجموعة بيانات تُسمى MultI-Modal In-Context Instruction Tuning (MIMIC-IT)، والتي تتضمن 2.8 مليون زوجًا من التعليمات والإجابات متعددة الوسائط، منها 2.2 مليون تعليمات فريدة تم استخلاصها من الصور والفيديوهات. ويتم دعم كل زوج بمعلومات متعددة الوسائط داخل السياق (in-context)، مما يشكّل سياقات تفاعلية تهدف إلى تمكين النماذج البصرية-اللغوية من التفاعل في مجالات الإدراك، والاستدلال، والتخطيط. يُسمّى عملية جمع أزواج التعليمات والإجابات بـ "Syphus"، وهي مُدرَجة باستخدام نموذج تسمية آلي يدمج الخبرة البشرية مع قدرات نموذج GPT. وباستخدام مجموعة بيانات MIMIC-IT، قمنا بتدريب نموذج بصرية-لغوية كبير يُدعى Otter. وقد أظهرت تقييمات واسعة النطاق على معايير مهام البصرية-اللغة أن نموذج Otter يتميّز بأداء متميز في الإدراك متعدد الوسائط، والاستدلال، والتعلم داخل السياق. كما أظهر التقييم البشري أنه يتماشى بشكل فعّال مع نوايا المستخدم. ونُعلن عن إتاحة مجموعة بيانات MIMIC-IT، وآلية جمع أزواج التعليمات والإجابات، والمعايير، والنموذج Otter.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp