HyperAIHyperAI
منذ 7 أيام

كيفية التسمية: توجيه نماذج LLM لتحويل التعليقات المرئية على نطاق واسع

Nina Shvetsova, Anna Kukleva, Xudong Hong, Christian Rupprecht, Bernt Schiele, Hilde Kuehne
كيفية التسمية: توجيه نماذج LLM لتحويل التعليقات المرئية على نطاق واسع
الملخص

تُعد مقاطع الفيديو التعليمية مصدرًا شائعًا لتعلم التمثيلات النصية-المرئية وحتى متعددة الوسائط، وذلك من خلال استغلال النصوص التوضيحية المستخرجة باستخدام أنظمة التعرف التلقائي على الكلام (ASR) من الإشارة الصوتية في الفيديوهات. ومع ذلك، وعلى عكس العناوين البشرية المُعلّقة، فإن كلًا من الكلام والنصوص التوضيحية يختلفان طبيعيًا عن المحتوى المرئي في الفيديوهات، وبالتالي يوفران فقط مراقبة مزعجة. ونتيجة لذلك، تظل بيانات الفيديو على نطاق واسع، التي لا تتطلب تسمية يدوية، غير مثالية لتدريب نماذج النص-الفيديو. في هذا العمل، نقترح استغلال قدرات النماذج اللغوية الكبيرة (LLMs) للحصول على وصف مرئي عالي الجودة ومتماشٍ مع الفيديو على نطاق واسع. بشكل خاص، نُشغّل نموذج لغوي كبير لإنشاء عناوين واقعية للفيديوهات بناءً على النصوص التوضيحية المستخرجة من أنظمة التعرف التلقائي على الكلام (ASR) من مقاطع فيديو تعليمية. ولتحقيق ذلك، نُقدّم طريقة توليد (prompting) قادرة على أخذ نص طويل من النصوص التوضيحية بعين الاعتبار، مما يسمح لنا بفهم المعلومات السياقية التي تتجاوز جملة واحدة. ونُشغّل النموذج اللغوي الكبير لاحقًا لإنشاء تواريخ زمنية لكل عنوان مُنتَج، مستندًا إلى تواريخ النصوص التوضيحية، ثم نُتمّم محاذاة العناوين المُنتَجة مع الفيديو من حيث الزمن. وبهذا نحصل على عناوين فيديو بأسلوب بشري على نطاق واسع دون الحاجة إلى مراقبة بشرية. ونطبّق طريقة العمل هذه على النصوص التوضيحية لمجموعة بيانات HowTo100M، مما يؤدي إلى إنشاء مجموعة بيانات جديدة وواسعة النطاق تُسمى HowToCaption. تُظهر نتائج تقييمنا أن العناوين الناتجة لا تحسن بشكل ملحوظ من الأداء على العديد من مجموعات البيانات المعيارية في مهام الاسترجاع النصي-المرئي بدون تدريب مسبق (zero-shot) وكتابة العناوين للفيديوهات، بل تُسهم أيضًا في فصل السرد النصي عن الصوت، مما يعزز الأداء في المهام المتعددة الوسائط النصية-المرئية-الصوتية.