اقتراحات الكائنات العالمية لتحسين وصف الفيديو المتعدد الجمل
شهدت مجال صناعة وصف الصور تقدماً ملحوظاً في السنوات الأخيرة. لا يزال توليد وصف الفيديو في مراحله المبكرة، وذلك بسبب الطبيعة المعقدة للفيديو مقارنة بالصور. كما أن إنتاج وصف طوله فقرة واحدة للفيديو يُعد أكثر تحدّياً. ومن بين المشكلات الرئيسية: الاعتماد الزمني بين الكائنات، والعلاقات المعقدة بين الكائنات. في الآونة الأخيرة، تم اقتراح العديد من الدراسات حول توليد وصف فيديو متعدد الجمل. وتُعتمد معظم هذه الدراسات على نهج مكوّن من خطوتين: 1) اقتراح الأحداث، و2) توليد الوصف. وعلى الرغم من أن هذه النهج تُنتج نتائج جيدة، إلا أنها تفتقر إلى الاستفادة من المعلومات المتاحة على المستوى العالمي. في هذا العمل، نقترح استخدام اقتراحات كائنات عالمية أثناء توليد وصف الفيديو. تُظهر النتائج التجريبية على مجموعة بيانات ActivityNet أن استخدام اقتراحات الكائنات العالمية يمكن أن يؤدي إلى إنتاج وصف أكثر إفادة ودقة. كما نقترح ثلاث قياسات لتقييم قدرة المولّد على اكتشاف الكائنات. وتوحي المقارنة النوعية للنصوص التي يولدها النهج المقترح مقابل التقنيات الرائدة حالياً بفعالية الاقتراح المُقدَّم.