AVSpeech – مجموعة بيانات الكلام السمعي البصري
التاريخ
منذ 6 أعوام
الحجم
867.36 GB
رابط النشر
الفئات
AVSpeech هي مجموعة بيانات سمعية بصرية جديدة واسعة النطاق تتكون من مقاطع فيديو من الكلام دون ضوضاء خلفية مزعجة. تتراوح مدة المقاطع من 3 إلى 10 ثوانٍ، وفي كل مقطع، الصوت المسموع في الموسيقى التصويرية ينتمي إلى الشخص الوحيد المرئي الذي يتحدث في الفيديو.
تحتوي مجموعة البيانات على ما يقرب من 4700 ساعة من مقاطع الفيديو من 290 ألف مقطع فيديو على YouTube، والتي تغطي مجموعة واسعة من الأشخاص واللغات ووضعيات الوجه.
AVSpeech.torrent
البذر 3التنزيل 2مكتمل 2,322إجمالي التنزيلات 3,810