منذ 6 أشهر

الملخص

تُعد مقاطع الفيديو التعليمية مصدرًا شائعًا لتعلم التمثيلات النصية-المرئية وحتى متعددة الوسائط، وذلك من خلال استغلال النصوص التوضيحية المستخرجة باستخدام أنظمة التعرف التلقائي على الكلام (ASR) من الإشارة الصوتية في الفيديوهات. ومع ذلك، وعلى عكس العناوين البشرية المُعلّقة، فإن كلًا من الكلام والنصوص التوضيحية يختلفان طبيعيًا عن المحتوى المرئي في الفيديوهات، وبالتالي يوفران فقط مراقبة مزعجة. ونتيجة لذلك، تظل بيانات الفيديو على نطاق واسع، التي لا تتطلب تسمية يدوية، غير مثالية لتدريب نماذج النص-الفيديو. في هذا العمل، نقترح استغلال قدرات النماذج اللغوية الكبيرة (LLMs) للحصول على وصف مرئي عالي الجودة ومتماشٍ مع الفيديو على نطاق واسع. بشكل خاص، نُشغّل نموذج لغوي كبير لإنشاء عناوين واقعية للفيديوهات بناءً على النصوص التوضيحية المستخرجة من أنظمة التعرف التلقائي على الكلام (ASR) من مقاطع فيديو تعليمية. ولتحقيق ذلك، نُقدّم طريقة توليد (prompting) قادرة على أخذ نص طويل من النصوص التوضيحية بعين الاعتبار، مما يسمح لنا بفهم المعلومات السياقية التي تتجاوز جملة واحدة. ونُشغّل النموذج اللغوي الكبير لاحقًا لإنشاء تواريخ زمنية لكل عنوان مُنتَج، مستندًا إلى تواريخ النصوص التوضيحية، ثم نُتمّم محاذاة العناوين المُنتَجة مع الفيديو من حيث الزمن. وبهذا نحصل على عناوين فيديو بأسلوب بشري على نطاق واسع دون الحاجة إلى مراقبة بشرية. ونطبّق طريقة العمل هذه على النصوص التوضيحية لمجموعة بيانات HowTo100M، مما يؤدي إلى إنشاء مجموعة بيانات جديدة وواسعة النطاق تُسمى HowToCaption. تُظهر نتائج تقييمنا أن العناوين الناتجة لا تحسن بشكل ملحوظ من الأداء على العديد من مجموعات البيانات المعيارية في مهام الاسترجاع النصي-المرئي بدون تدريب مسبق (zero-shot) وكتابة العناوين للفيديوهات، بل تُسهم أيضًا في فصل السرد النصي عن الصوت، مما يعزز الأداء في المهام المتعددة الوسائط النصية-المرئية-الصوتية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Nina Shvetsova Anna Kukleva Xudong Hong Christian Rupprecht Bernt Schiele Hilde Kuehne

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Nina Shvetsova Anna Kukleva Xudong Hong Christian Rupprecht Bernt Schiele Hilde Kuehne

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Nina Shvetsova Anna Kukleva Xudong Hong Christian Rupprecht Bernt Schiele Hilde Kuehne

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

كيفية التسمية: توجيه نماذج LLM لتحويل التعليقات المرئية على نطاق واسع

Nina Shvetsova Anna Kukleva Xudong Hong Christian Rupprecht Bernt Schiele Hilde Kuehne

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

كيفية التسمية: توجيه نماذج LLM لتحويل التعليقات المرئية على نطاق واسع

Nina Shvetsova Anna Kukleva Xudong Hong Christian Rupprecht Bernt Schiele Hilde Kuehne

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

كيفية التسمية: توجيه نماذج LLM لتحويل التعليقات المرئية على نطاق واسع

Nina Shvetsova Anna Kukleva Xudong Hong Christian Rupprecht Bernt Schiele Hilde Kuehne

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters