Command Palette
Search for a command to run...
AVSpeech – مجموعة بيانات الكلام السمعي البصري
Date
Size
Publish URL
AVSpeech هي مجموعة بيانات سمعية بصرية جديدة واسعة النطاق تتكون من مقاطع فيديو من الكلام دون ضوضاء خلفية مزعجة. تتراوح مدة المقاطع من 3 إلى 10 ثوانٍ، وفي كل مقطع، الصوت المسموع في الموسيقى التصويرية ينتمي إلى الشخص الوحيد المرئي الذي يتحدث في الفيديو.
تحتوي مجموعة البيانات على ما يقرب من 4700 ساعة من مقاطع الفيديو من 290 ألف مقطع فيديو على YouTube، والتي تغطي مجموعة واسعة من الأشخاص واللغات ووضعيات الوجه.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.