منذ 8 أشهر

الملخص

يركز هذا البحث على التحدي المتمثل في الإجابة على الأسئلة في السيناريوهات التي تتكون من مكونات صوتية ومرئية غنية ومعقدة ومتحركة. رغم أن النماذج اللغوية متعددة الوسائط الحالية (MLLMs) يمكنها الرد على المحتوى الصوتي والمرئي، فإن هذه الإجابات تكون أحيانًا غامضة ولا تتمكن من وصف الأحداث الصوتية والمرئية المحددة. لتجاوز هذا القيد، نقدم نظام CAT، الذي يعزز النموذج متعدد الوسائط الكبير (MLLM) بثلاث طرق: 1) بالإضافة إلى ربط الصوت والفيديو بشكل مباشر، قمنا بتصميم جامع أدلة يجمع الأدلة ذات الصلة بالسؤال في السيناريوهات الصوتية والمرئية المتحركة لتعزيز المعرفة التفصيلية اللازمة للنماذج اللغوية الكبيرة. 2) يتم تدريب CAT على مجموعة بيانات متعددة الوسائط مختلطة، مما يسمح بالتطبيق المباشر في السيناريوهات الصوتية والمرئية. ومن الجدير بالذكر أننا جمعنا مجموعة بيانات تعليمات مشتركة صوتية ومرئية باسم AVinstruct، لتعزيز قدرة CAT على نمذجة العلاقات الدلالية العابرة. 3) نقترح استراتيجية تحسين التفضيل المباشر الواعي بالغموض بمساعدة الذكاء الاصطناعي، وهي استراتيجية مخصصة لإعادة تدريب النموذج ليفضل الردود غير الغامضة وتحسين قدرته على تحديد مواقع الأشياء الصوتية والمرئية المحددة. تظهر النتائج التجريبية الشاملة أن CAT يتفوق على الأساليب الحالية في المهام المتعددة الوسائط، خاصة في مهام الإجابة على الأسئلة الصوتية والمرئية (AVQA). تم إطلاق الكود والموجهات التي تم جمعها على الرابط https://github.com/rikeilong/Bay-CAT.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CAT: تعزيز نموذج اللغة الكبير متعدد الوسائط للإجابة على الأسئلة في السيناريوهات السمعية البصرية الديناميكية

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CAT: تعزيز نموذج اللغة الكبير متعدد الوسائط للإجابة على الأسئلة في السيناريوهات السمعية البصرية الديناميكية

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CAT: تعزيز نموذج اللغة الكبير متعدد الوسائط للإجابة على الأسئلة في السيناريوهات السمعية البصرية الديناميكية

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters