HyperAIHyperAI
منذ 2 أشهر

MAD: مجموعة بيانات قابلة للتوسع لربط اللغة بالفيديوهات من خلال وصف الصوت في الأفلام

Soldan, Mattia ; Pardo, Alejandro ; Alcázar, Juan León ; Heilbron, Fabian Caba ; Zhao, Chen ; Giancola, Silvio ; Ghanem, Bernard
MAD: مجموعة بيانات قابلة للتوسع لربط اللغة بالفيديوهات من خلال وصف الصوت في الأفلام
الملخص

الاهتمام المتزايد والمستمر في أبحاث الفيديو-اللغة قد دفع بتطوير قواعد بيانات على نطاق واسع تمكن من تقنيات التعلم الآلي المكثف. ومع ذلك، فإن الجهود المبذولة لتقدير ملاءمة هذه القواعد البيانات للمهمة الأساسية لربط الفيديو باللغة (video-language grounding) كانت محدودة. لقد بدأت الأعمال الحديثة في كشف القيود الكبيرة الموجودة في هذه القواعد البيانات، مما يشير إلى أن التقنيات الرائدة غالباً ما تتلائم بشكل مفرط مع التحيزات الخفية في القاعدة البيانات. في هذا البحث، نقدم MAD (Movie Audio Descriptions)، وهو معيار جديد يبتعد عن نموذج زيادة قواعد بيانات الفيديو الموجودة بالملاحظات النصية ويركز بدلاً من ذلك على جمع وتوفيق الوصف الصوتي المتاح للأفلام التجارية الرئيسية. يحتوي MAD على أكثر من 384,000 جملة بلغة طبيعية مرتبطة بأكثر من 1,200 ساعة من مقاطع الفيديو، مما يظهر انخفاضاً كبيراً في التحيزات التي تم تشخيصها حديثاً لقواعد بيانات ربط الفيديو باللغة. تسمح استراتيجية جمع MAD بإصدار جديد وأكثر تحدياً من ربط الفيديو باللغة، حيث يجب ربط اللحظات الزمنية القصيرة (غالباً ما تكون بضع ثوانٍ) بدقة في مقاطع فيديو طويلة ومتنوعة يمكن أن تستمر حتى ثلاث ساعات. لقد أطلقنا بيانات MAD وكود خطوط الأساس الخاصة بها على الرابط https://github.com/Soldelli/MAD.

MAD: مجموعة بيانات قابلة للتوسع لربط اللغة بالفيديوهات من خلال وصف الصوت في الأفلام | أحدث الأوراق البحثية | HyperAI