HyperAIHyperAI

Command Palette

Search for a command to run...

CAT: تعزيز نموذج اللغة الكبير متعدد الوسائط للإجابة على الأسئلة في السيناريوهات السمعية البصرية الديناميكية

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

الملخص

يركز هذا البحث على التحدي المتمثل في الإجابة على الأسئلة في السيناريوهات التي تتكون من مكونات صوتية ومرئية غنية ومعقدة ومتحركة. رغم أن النماذج اللغوية متعددة الوسائط الحالية (MLLMs) يمكنها الرد على المحتوى الصوتي والمرئي، فإن هذه الإجابات تكون أحيانًا غامضة ولا تتمكن من وصف الأحداث الصوتية والمرئية المحددة. لتجاوز هذا القيد، نقدم نظام CAT، الذي يعزز النموذج متعدد الوسائط الكبير (MLLM) بثلاث طرق: 1) بالإضافة إلى ربط الصوت والفيديو بشكل مباشر، قمنا بتصميم جامع أدلة يجمع الأدلة ذات الصلة بالسؤال في السيناريوهات الصوتية والمرئية المتحركة لتعزيز المعرفة التفصيلية اللازمة للنماذج اللغوية الكبيرة. 2) يتم تدريب CAT على مجموعة بيانات متعددة الوسائط مختلطة، مما يسمح بالتطبيق المباشر في السيناريوهات الصوتية والمرئية. ومن الجدير بالذكر أننا جمعنا مجموعة بيانات تعليمات مشتركة صوتية ومرئية باسم AVinstruct، لتعزيز قدرة CAT على نمذجة العلاقات الدلالية العابرة. 3) نقترح استراتيجية تحسين التفضيل المباشر الواعي بالغموض بمساعدة الذكاء الاصطناعي، وهي استراتيجية مخصصة لإعادة تدريب النموذج ليفضل الردود غير الغامضة وتحسين قدرته على تحديد مواقع الأشياء الصوتية والمرئية المحددة. تظهر النتائج التجريبية الشاملة أن CAT يتفوق على الأساليب الحالية في المهام المتعددة الوسائط، خاصة في مهام الإجابة على الأسئلة الصوتية والمرئية (AVQA). تم إطلاق الكود والموجهات التي تم جمعها على الرابط https://github.com/rikeilong/Bay-CAT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CAT: تعزيز نموذج اللغة الكبير متعدد الوسائط للإجابة على الأسئلة في السيناريوهات السمعية البصرية الديناميكية | مستندات | HyperAI