HyperAIHyperAI
منذ 2 أشهر

CAT: تعزيز نموذج اللغة الكبير متعدد الوسائط للإجابة على الأسئلة في السيناريوهات السمعية البصرية الديناميكية

Qilang Ye; Zitong Yu; Rui Shao; Xinyu Xie; Philip Torr; Xiaochun Cao
CAT: تعزيز نموذج اللغة الكبير متعدد الوسائط للإجابة على الأسئلة في السيناريوهات السمعية البصرية الديناميكية
الملخص

يركز هذا البحث على التحدي المتمثل في الإجابة على الأسئلة في السيناريوهات التي تتكون من مكونات صوتية ومرئية غنية ومعقدة ومتحركة. رغم أن النماذج اللغوية متعددة الوسائط الحالية (MLLMs) يمكنها الرد على المحتوى الصوتي والمرئي، فإن هذه الإجابات تكون أحيانًا غامضة ولا تتمكن من وصف الأحداث الصوتية والمرئية المحددة. لتجاوز هذا القيد، نقدم نظام CAT، الذي يعزز النموذج متعدد الوسائط الكبير (MLLM) بثلاث طرق: 1) بالإضافة إلى ربط الصوت والفيديو بشكل مباشر، قمنا بتصميم جامع أدلة يجمع الأدلة ذات الصلة بالسؤال في السيناريوهات الصوتية والمرئية المتحركة لتعزيز المعرفة التفصيلية اللازمة للنماذج اللغوية الكبيرة. 2) يتم تدريب CAT على مجموعة بيانات متعددة الوسائط مختلطة، مما يسمح بالتطبيق المباشر في السيناريوهات الصوتية والمرئية. ومن الجدير بالذكر أننا جمعنا مجموعة بيانات تعليمات مشتركة صوتية ومرئية باسم AVinstruct، لتعزيز قدرة CAT على نمذجة العلاقات الدلالية العابرة. 3) نقترح استراتيجية تحسين التفضيل المباشر الواعي بالغموض بمساعدة الذكاء الاصطناعي، وهي استراتيجية مخصصة لإعادة تدريب النموذج ليفضل الردود غير الغامضة وتحسين قدرته على تحديد مواقع الأشياء الصوتية والمرئية المحددة. تظهر النتائج التجريبية الشاملة أن CAT يتفوق على الأساليب الحالية في المهام المتعددة الوسائط، خاصة في مهام الإجابة على الأسئلة الصوتية والمرئية (AVQA). تم إطلاق الكود والموجهات التي تم جمعها على الرابط https://github.com/rikeilong/Bay-CAT.

CAT: تعزيز نموذج اللغة الكبير متعدد الوسائط للإجابة على الأسئلة في السيناريوهات السمعية البصرية الديناميكية | أحدث الأوراق البحثية | HyperAI