HyperAIHyperAI

Command Palette

Search for a command to run...

كيفية التسمية: توجيه نماذج LLM لتحويل التعليقات المرئية على نطاق واسع

Nina Shvetsova Anna Kukleva Xudong Hong Christian Rupprecht Bernt Schiele Hilde Kuehne

الملخص

تُعد مقاطع الفيديو التعليمية مصدرًا شائعًا لتعلم التمثيلات النصية-المرئية وحتى متعددة الوسائط، وذلك من خلال استغلال النصوص التوضيحية المستخرجة باستخدام أنظمة التعرف التلقائي على الكلام (ASR) من الإشارة الصوتية في الفيديوهات. ومع ذلك، وعلى عكس العناوين البشرية المُعلّقة، فإن كلًا من الكلام والنصوص التوضيحية يختلفان طبيعيًا عن المحتوى المرئي في الفيديوهات، وبالتالي يوفران فقط مراقبة مزعجة. ونتيجة لذلك، تظل بيانات الفيديو على نطاق واسع، التي لا تتطلب تسمية يدوية، غير مثالية لتدريب نماذج النص-الفيديو. في هذا العمل، نقترح استغلال قدرات النماذج اللغوية الكبيرة (LLMs) للحصول على وصف مرئي عالي الجودة ومتماشٍ مع الفيديو على نطاق واسع. بشكل خاص، نُشغّل نموذج لغوي كبير لإنشاء عناوين واقعية للفيديوهات بناءً على النصوص التوضيحية المستخرجة من أنظمة التعرف التلقائي على الكلام (ASR) من مقاطع فيديو تعليمية. ولتحقيق ذلك، نُقدّم طريقة توليد (prompting) قادرة على أخذ نص طويل من النصوص التوضيحية بعين الاعتبار، مما يسمح لنا بفهم المعلومات السياقية التي تتجاوز جملة واحدة. ونُشغّل النموذج اللغوي الكبير لاحقًا لإنشاء تواريخ زمنية لكل عنوان مُنتَج، مستندًا إلى تواريخ النصوص التوضيحية، ثم نُتمّم محاذاة العناوين المُنتَجة مع الفيديو من حيث الزمن. وبهذا نحصل على عناوين فيديو بأسلوب بشري على نطاق واسع دون الحاجة إلى مراقبة بشرية. ونطبّق طريقة العمل هذه على النصوص التوضيحية لمجموعة بيانات HowTo100M، مما يؤدي إلى إنشاء مجموعة بيانات جديدة وواسعة النطاق تُسمى HowToCaption. تُظهر نتائج تقييمنا أن العناوين الناتجة لا تحسن بشكل ملحوظ من الأداء على العديد من مجموعات البيانات المعيارية في مهام الاسترجاع النصي-المرئي بدون تدريب مسبق (zero-shot) وكتابة العناوين للفيديوهات، بل تُسهم أيضًا في فصل السرد النصي عن الصوت، مما يعزز الأداء في المهام المتعددة الوسائط النصية-المرئية-الصوتية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp