القياس المولد القائم على الفيديو (التوجه التفصيلي)
تقويم الأداء التوليدي القائم على الفيديو (التركيز على التفاصيل) هو معيار لتقييم قدرات النماذج التوليدية للحوار الفيديو في التركيز على التفاصيل. يعتمد هذا المهمة على مجموعة بيانات ActivityNet-200، حيث يتم بناء مجموعة اختبار من التسميات الوصفية الغنية والكثيفة التي تم توثيقها من قبل البشر وازواج الأسئلة والأجوبة المرتبطة بها. يستخدم نموذج GPT-3.5 لتطوير خط أنابيب تقييم يوفر درجات نسبية تتراوح بين 1 و5 للتنبؤات المولدة. الهدف هو تعزيز دقة وتماسك النماذج في فهم وتوضيح التفاصيل، مما يوفر مرجعًا حاسمًا لتحسين أداء أنظمة حوار الفيديو.