منذ 6 أشهر

الملخص

كشف اللحظات المخصصة والمشاهد البارزة من الفيديوهات استجابةً لاستفسارات المستخدم باللغة الطبيعية (NL) يُعد موضوعًا مهمًا لكنه لم يُدرس بشكل كافٍ. إحدى التحديات في متابعة هذا الاتجاه تكمن في نقص البيانات المُعلّمة. لمعالجة هذه المشكلة، نقدّم مجموعة البيانات المُسمّاة "QVHIGHLIGHTS" (الHighlights القائمة على الاستفسار). وتتكوّن هذه المجموعة من أكثر من 10,000 فيديو من يوتيوب، تغطي طيفًا واسعًا من المواضيع، بدءًا من الأنشطة اليومية والسفر في مقاطع الفيديو الحياتية (الفيديوهات التسجيلية)، ووصولًا إلى الأنشطة الاجتماعية والسياسية في مقاطع الأخبار. تم تزويز كل فيديو في هذه المجموعة بـ: (1) استفسار نصي حر مكتوب من قبل إنسان، (2) اللحظات ذات الصلة في الفيديو بالنسبة لهذا الاستفسار، و(3) درجات مكثّفة (على مقياس من خمس نقاط) لكل لقطات مرتبطة بالاستفسار. تتيح هذه التسمية الشاملة تطوير وتجريب أنظمة قادرة على اكتشاف اللحظات ذات الصلة والمشاهد البارزة استجابةً لاستفسارات متنوعة ومُتعددة الاستخدامات. كما نقدّم أيضًا نموذجًا أساسيًا قويًا لهذا المهمة، يُسمّى Moment-DETR، وهو نموذج يعتمد على معمارية الترانسفورمر (encoder-decoder) ويُعامل استرجاع اللحظات كمشكلة تنبؤ مباشرة بمجموعة من القيم، حيث يأخذ تمثيلات الفيديو والاستفسار المستخرجة كمدخلات ويُنبئ بتنسيق إحداثيات اللحظات ودرجات المكثّف بشكل متكامل (end-to-end). وعلى الرغم من أن نموذجنا لا يستخدم أي معرفة مسبقة من البشر، إلا أننا نُظهر أنه يُنافس بفعالية النماذج المُصممة بدقة عالية. وباستخدام التدريب الضعيف المُسبق (weakly supervised pretraining) مع عناوين التحويل الصوتي إلى نص (ASR)، يتفوّق MomentDETR بشكل كبير على الطرق السابقة. وأخيرًا، نقدّم عدة تحليلات تجريبية (ablations) وتصاميم مرئية لنموذج Moment-DETR. وتم إتاحة البيانات والكود للجمهور عبر الرابط التالي: https://github.com/jayleicn/moment_detr

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Jie Lei Tamara L. Berg Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jie Lei Tamara L. Berg Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jie Lei Tamara L. Berg Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

QVHighlights: الكشف عن اللحظات والمشاهد البارزة في الفيديوهات عبر استفسارات بلغة طبيعية

Jie Lei Tamara L. Berg Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

QVHighlights: الكشف عن اللحظات والمشاهد البارزة في الفيديوهات عبر استفسارات بلغة طبيعية

Jie Lei Tamara L. Berg Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

QVHighlights: الكشف عن اللحظات والمشاهد البارزة في الفيديوهات عبر استفسارات بلغة طبيعية

Jie Lei Tamara L. Berg Mohit Bansal

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters