الملخص

الاهتمام المتزايد والمستمر في أبحاث الفيديو-اللغة قد دفع بتطوير قواعد بيانات على نطاق واسع تمكن من تقنيات التعلم الآلي المكثف. ومع ذلك، فإن الجهود المبذولة لتقدير ملاءمة هذه القواعد البيانات للمهمة الأساسية لربط الفيديو باللغة (video-language grounding) كانت محدودة. لقد بدأت الأعمال الحديثة في كشف القيود الكبيرة الموجودة في هذه القواعد البيانات، مما يشير إلى أن التقنيات الرائدة غالباً ما تتلائم بشكل مفرط مع التحيزات الخفية في القاعدة البيانات. في هذا البحث، نقدم MAD (Movie Audio Descriptions)، وهو معيار جديد يبتعد عن نموذج زيادة قواعد بيانات الفيديو الموجودة بالملاحظات النصية ويركز بدلاً من ذلك على جمع وتوفيق الوصف الصوتي المتاح للأفلام التجارية الرئيسية. يحتوي MAD على أكثر من 384,000 جملة بلغة طبيعية مرتبطة بأكثر من 1,200 ساعة من مقاطع الفيديو، مما يظهر انخفاضاً كبيراً في التحيزات التي تم تشخيصها حديثاً لقواعد بيانات ربط الفيديو باللغة. تسمح استراتيجية جمع MAD بإصدار جديد وأكثر تحدياً من ربط الفيديو باللغة، حيث يجب ربط اللحظات الزمنية القصيرة (غالباً ما تكون بضع ثوانٍ) بدقة في مقاطع فيديو طويلة ومتنوعة يمكن أن تستمر حتى ثلاث ساعات. لقد أطلقنا بيانات MAD وكود خطوط الأساس الخاصة بها على الرابط https://github.com/Soldelli/MAD.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MAD: مجموعة بيانات قابلة للتوسع لربط اللغة بالفيديوهات من خلال وصف الصوت في الأفلام

Mattia Soldan Alejandro Pardo Juan León Alcázar Fabian Caba Heilbron Chen Zhao Silvio Giancola Bernard Ghanem

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MAD: مجموعة بيانات قابلة للتوسع لربط اللغة بالفيديوهات من خلال وصف الصوت في الأفلام

Mattia Soldan Alejandro Pardo Juan León Alcázar Fabian Caba Heilbron Chen Zhao Silvio Giancola Bernard Ghanem

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MAD: مجموعة بيانات قابلة للتوسع لربط اللغة بالفيديوهات من خلال وصف الصوت في الأفلام

Mattia Soldan Alejandro Pardo Juan León Alcázar Fabian Caba Heilbron Chen Zhao Silvio Giancola Bernard Ghanem

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters