HyperAIHyperAI

القياس المولد القائم على الفيديو (الثبات)

"القياس المعياري لأداء النماذج التوليدية القائمة على الفيديو (الثبات)" هو مهمة مصممة لتقييم ثبات النماذج التوليدية للحوار القائم على الفيديو. تعتمد هذه المهمة على مجموعة بيانات ActivityNet-200، والتي تُبنى مجموعة الاختبار من خلال التوصيفات الكثيفة الغنية والأسئلة والأجوبة التي تم توثيقها بواسطة البشر. يتم استخدام خط أنابيب تقييم تم تطويره باستخدام نموذج GPT-3.5 لتقديم درجة نسبية من 1 إلى 5 للتنبؤات المولدة. الهدف هو قياس قدرة النموذج على الحفاظ على اتساق المعلومات والترابط المنطقي عبر عدة جولات من الحوار، مما يوفر مراجع حاسمة لتحسين أداء أنظمة الحوار القائمة على الفيديو."