HyperAIHyperAI

Command Palette

Search for a command to run...

MAD: مجموعة بيانات قابلة للتوسع لربط اللغة بالفيديوهات من خلال وصف الصوت في الأفلام

Mattia Soldan Alejandro Pardo Juan León Alcázar Fabian Caba Heilbron Chen Zhao Silvio Giancola Bernard Ghanem

الملخص

الاهتمام المتزايد والمستمر في أبحاث الفيديو-اللغة قد دفع بتطوير قواعد بيانات على نطاق واسع تمكن من تقنيات التعلم الآلي المكثف. ومع ذلك، فإن الجهود المبذولة لتقدير ملاءمة هذه القواعد البيانات للمهمة الأساسية لربط الفيديو باللغة (video-language grounding) كانت محدودة. لقد بدأت الأعمال الحديثة في كشف القيود الكبيرة الموجودة في هذه القواعد البيانات، مما يشير إلى أن التقنيات الرائدة غالباً ما تتلائم بشكل مفرط مع التحيزات الخفية في القاعدة البيانات. في هذا البحث، نقدم MAD (Movie Audio Descriptions)، وهو معيار جديد يبتعد عن نموذج زيادة قواعد بيانات الفيديو الموجودة بالملاحظات النصية ويركز بدلاً من ذلك على جمع وتوفيق الوصف الصوتي المتاح للأفلام التجارية الرئيسية. يحتوي MAD على أكثر من 384,000 جملة بلغة طبيعية مرتبطة بأكثر من 1,200 ساعة من مقاطع الفيديو، مما يظهر انخفاضاً كبيراً في التحيزات التي تم تشخيصها حديثاً لقواعد بيانات ربط الفيديو باللغة. تسمح استراتيجية جمع MAD بإصدار جديد وأكثر تحدياً من ربط الفيديو باللغة، حيث يجب ربط اللحظات الزمنية القصيرة (غالباً ما تكون بضع ثوانٍ) بدقة في مقاطع فيديو طويلة ومتنوعة يمكن أن تستمر حتى ثلاث ساعات. لقد أطلقنا بيانات MAD وكود خطوط الأساس الخاصة بها على الرابط https://github.com/Soldelli/MAD.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp