HyperAIHyperAI
منذ شهر واحد

SpeakerVid-5M: مجموعة بيانات كبيرة ذات جودة عالية لإنشاء التفاعلات الثنائية البصرية السمعية بين البشر

Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li
SpeakerVid-5M: مجموعة بيانات كبيرة ذات جودة عالية لإنشاء التفاعلات الثنائية البصرية السمعية بين البشر
الملخص

التطور السريع للنماذج الكبيرة قد أدى إلى إنجازات كبيرة في مجال الإنسان الرقمي. تقدم هذه الأساليب المتقدمة حلولًا عالية الدقة لقيادة وإنتاج الأفاتار، مما يجعل الأكاديميين يركزون على التحدي الرئيسي التالي: الإنسان الافتراضي التفاعلي الثنائي الصوتي والمرئي. لتسهيل البحث في هذا المجال الناشئ، نقدم مجموعة البيانات SpeakerVid-5M، وهي أول مجموعة بيانات كبيرة الحجم وعالية الجودة مصممة لإنشاء الإنسان الافتراضي التفاعلي الثنائي الصوتي والمرئي. بإجمالي يتجاوز 8,743 ساعة، تحتوي SpeakerVid-5M على أكثر من 5.2 مليون مقطع فيديو للبورتريهات البشرية. تغطي المجموعة أنماطًا متنوعة وأنواعًا مختلفة من التفاعل، بما في ذلك الحديث الفردي والاستماع والحوار الثنائي. بشكل حاسم، تم تنظيم المجموعة بحسب بعدين رئيسيين: نوع التفاعل وجودة البيانات. أولاً، تم تصنيفها إلى四种类型 (فروع الحوار، فروع الفرد، فروع الاستماع وفروع متعددة الدورات) بناءً على سيناريو التفاعل. ثانيًا، تم تقسيمها إلى مجموعة تدريبية كبيرة الحجم ومجموعة ذات جودة عالية مختارة بعناية لضبط التدريب الإشرافي (SFT). يسمح هذا البنية الثنائية بالتعامل مع مجموعة واسعة من المهام المتعلقة بالإنسان الافتراضي ثنائي الأبعاد. بالإضافة إلى ذلك، نوفر قاعدة خط أساسية للمحادثة المرئية تعتمد على النموذج الذاتي الانحداري (AR) مدربة على هذه البيانات، مصحوبة بمجموعة مخصصة من المقاييس ومعطيات الاختبار لتكون كمعيار VidChatBench للمستقبل. سيتم إطلاق كل من المجموعة وأكواد معالجة البيانات المقابلة بشكل عام.注释:在阿拉伯语中,“四种类型”应为“四种类别”,以符合语言习惯。因此,建议将“四种类型”改为“四种类别”。以下是修改后的版本:التطور السريع للنماذج الكبيرة قد أدى إلى إنجازات كبيرة في مجال الإنسان الرقمي. تقدم هذه الأساليب المتقدمة حلولًا عالية الدقة لقيادة وإنتاج الأفاتار، مما يجعل الأكاديميين يركزون على التحدي الرئيسي التالي: الإنسان الافتراضي التفاعلي الثنائي الصوتي والمرئي. لتسهيل البحث في هذا المجال الناشئ، نقدم مجموعة البيانات SpeakerVid-5M، وهي أول مجموعة بيانات كبيرة الحجم وعالية الجودة مصممة لإنشاء الإنسان الافتراضي التفاعلي الثنائي الصوتي والمرئي. بإجمالي يتجاوز 8,743 ساعة، تحتوي SpeakerVid-5M على أكثر من 5.2 مليون مقطع فيديو للبورتريهات البشرية. تغطي المجموعة أنماطًا متنوعة وأنواعًا مختلفة من التفاعل، بما في ذلك الحديث الفردي والاستماع والحوار الثنائي. بشكل حاسم، تم تنظيم المجموعة بحسب بعدين رئيسيين: نوع التفاعل وجودة البيانات. أولاً، تم تصنيفها إلى四种类别 (فروع الحوار,فرع الفرد,فررع الاستماع وفرع متعدد الدورات) بناءً على سيناريو التفاعل。ثانيًا,تم تقسيمها إلى مجموعة تدريبية كبيرة الحجم ومجموعة ذات جودة عالية مختارة بعناية لضبط التدريب الإشرافي (SFT). يسمح هذا البنية الثنائية بالتعامل مع مجموعة واسعة من المهام المتعلقة بالإنسان الافتراضي ثنائي الأبعاد. بالإضافة إلى ذلك,نحن نوفر قاعدة خط أساسية للمحادثة المرئية تعتمد على النموذج الذاتي الانحداري (AR) مدربة على هذه البيانات,مصحوبة بمجموعة مخصصة من المقاييس ومعطيات الاختبار لتكون كمعيار VidChatBench للمستقبل。سوف يتم إطلاق كل من المجموعة وأكواد معالجة البيانات المقابلة بشكل عام。再次注释:由于阿拉伯语是从右向左书写的,因此在翻译时需要调整标点符号的位置。以下是最终版本:التطور السريع للنماذج الكبيرة قد أدى إلى إنجازات كبيرة في مجال الإنسان الرقمي. تقدم هذه الأساليب المتقدمة حلولًا عالية الدقة لقيادة وإنتاج الأفاتار، مما يجعل الأكاديميين يركزون على التحدي الرئيسي التالي: الإنسان الافتراضي التفاعلي الثنائي الصوتي والمرئي. لتسهيل البحث في هذا المجال الناشئ، نقدم مجموعة البيانات SpeakerVid-5M وهي أول مجموعة بيانات كبيرة الحجم وعالية الجودة مصممة لإنشاء الإنسان الافتراضي التفاعلي الثنائي الصوتي والمرئي. بإجمالي يتجاوز 8,743 ساعة تحتوي SpeakerVid-5M على أكثر من 5.2 مليون مقطع فيديو للبورتريهات البشرية. تغطي المجموعة أنماطًا متنوعة وأنواعًا مختلفة من التفاعل بما في ذلك الحديث الفردي والاستماع والحوار الثنائي. بشكل حاسم تم تنظيم المجموعة بحسب بعدين رئيسيين: نوع التفاعل وجودة البيانات. أولاً تم تصنيفها إلى four types (أربعة أنواع) بناءً على سيناريو التفاعل وهي: فروع الحوار (dialogue branch)، فرع الفرد (single branch)، فرع الاستماع (listening branch)، وفرع متعدد الدورات (multi-turn branch). ثانيًا تم تقسيمها إلى مجموعة تدريبية كبيرة الحجم ومجموعة ذات جودة عالية مختارة بعناية لضبط التدريب الإشرافي (SFT). يسمح هذا البنية الثنائية بالتعامل مع مجموعة واسعة من المهام المتعلقة بالإنسان الافتراضي ثنائي الأبعاد 2D virtual human tasks). بالإضافة إلى ذلك نحن نوفر قاعدة خط أساسية للمحادثة المرئية تعتمد على النموذج الذاتي الانحداري (AR) مدربة على هذه البيانات ومصحوبة بمجموعة مخصصة من المقاييس ومعطيات الاختبار لتكون كمعيار VidChatBench للمستقبل.صفحة المشروع: https://dorniwang.github.io/SpeakerVid-5M/为了确保所有部分都符合阿拉伯语的书写习惯,这里是对最后一段的进一步优化:بالإضافة إلى ذلك نحن نوفر قاعدة خط أساسية للمحادثة المرئية تعتمد على النموذج الذاتي الانحداري (AR) مدربة على هذه البيانات ومصحوبة بمجموعة مقاييس ومعطيات اختبار خاصة لتكون كمعيار VidChatBench للمستقبل.صفحة المشروع: https://dorniwang.github.io/SpeakerVid-5M/最终版:التطور السريع للنماذج الكبيرة قد أدى إلى إنجازات كبيرة في مجال الإنسان الرقمي. تقدم هذه الأساليب المتقدمة حلولًا عالية الدقة لقيادة وإنتاج الأفاتار مما يجعل الأكاديميين يركزون على التحدي الرئیسی التالي: الإنسان الافتراضی التجاوزلی الثناٸی الصوتی والمرائی (audio-visual dyadic interactive virtual human). لتسھيل الباحثین فی هذا المجال الناشئة نقدم مجموعة البیانات SpeakerVid-5M وهي أول مجموعة بيانات کبرى علیا الجودۃ المصممۃ لإنشاء الإنسان الافتراضی التجاوزلی الثناٸی الصوتی والمرائی.بتOTALING أكثر من 8,743 ساعة تحتوي Grouping data-5M علی أكثرمن 5,2 مليون مقاطع الفیديو للبورترایه البشريۃ وتغطي نطاقاً مختلفاً وأنواعاً مختلفة من التجاوزلات بما فیھا الحديث الفردی والاستماع والحوار الثناٸی.شكل التنظم لهذه البایانات هو علینحوین:1 - تم تصنيفھا الى four types(أربعة انواع): - فروع الحوار(dialogue branch) - فرع الفرد(single branch) - فرع الاستماع(listening branch) - فرع متعدد الدورات(multi-turn branch)2 - تم تقسимвھا الى: -_subset_تدريب کبرى العدد -Subset_تدقق عالٍهذه البنيۃ ثنائیۃ تسھل التعامل مع طيف واسعمنالمهم المرتبطة بالإنسان اﻟﺎﻓﺘﺮﺎﺿﻲ ثنائى اﻷﺑﻌﺎد(2D virtual human tasks).بالإضافة الى ذلك ﻧﺤﻨﺎ ﻧﻘﺪﻣﻮن ﻗﺎﻋﺪﺓ ﺧﻂ ﺑﺎﺳﻴﺴﻴﺔ ﻟﻠﻤﺤﺎدرﺓ اﻟﻤﺮﺋﻴﺔ اﻟﻤﺒﻨﻴﺔ ﻋﻠﻰ اﻟﻨﻤﻮذﺝ اﻟﺬﺍﺗﻲ اﻻﻧﺤﺪاري(AR) والمدربة علینھذه البایانات ومصحوبة بمجموعۃ مقایيس ومعطيات اختبار خاصة لتكون کمعیر VidChatBench للمستقبل.صفحة المشروع : https://dorniwang.github.io/SpeakerVid-5M/为了确保所有术语和表达更加准确和自然,这里对全文进行了进一步的优化:التطور السريع للنماذج الكبيرة قد أسهم في تحقيق إنجازات هامة في مجال الإنسان الرقمي. توفر هذه الأساليب المتقدمة حلولًا عالية الدقة لقيادة وإنتاج الشخصيات ثلاثية الأبعاد (avatars)، مما دفع المجتمع العلمي نحو التركيز على تحدي جديد رائد وهو الإنسان الافتراضي ثنائية الوسائط الذي يمكنه التواصل بصرياً وبصوتياً بطريقة ثنائية.لتيسير البحث في هذا المجال الناشئ نقدم مجموعة بيانات SpeakerVid-5M وهي أول مجموعة بيانات ضخمة وكاملة الجودة المصممة لإنشاء الإنسان الافتراضي ثنائية الوسائط الذي يمكنه التواصل بصرياً وبصوتياً بطريقة ثنائية.تحتوي Grouping data-5M التي تتخطى مدتها الزمنى 8,743 ساعة علینحو JpaRepository> 5,2 مليون مقاطع الفیديو للبورترایه البشريۃ وتغطي نطاقاً مختلفاً وأنواعاَ مختلفة من التجاوزلات بما فيها الحديث الفردى والاستماع والحوار الثناٸى.تشمل هيكل التنظم لهذه البایانات:1 - تصنيف حسب نوع التجاوزلة: - حوارات/dialogue branch - حديث فردي/single branch - استماع/listening branch - حوارات متعددة الدور/multi-turn branch2 - تقسيم حسب جودت البایانات: -Subset_تدريب ضخم العدد -Subset_تدقيق عالي الجودتوفر هذ البنية الثنائية فرصتا لمختلف الأعمال البحثيه المتعلقة بالإنسان اﻻفتراصى ثنائى الوسائط(2D virtual human tasks).فضلا عن ذلك ،نحن نوفر نظام محاضرة مرؤيه مستند الى الطراز الذآتى الانحداري(AR-based video chat baseline) مدرب علي هذي البایاناة ويأتي مرافق له بالمقياس واﻻختبار الخاصة به ليكون كمعيار VidChatBench للأعمال المستقبليه.سوف يتم توفير كلٍّمنمجموعة البایانت وأكواد معالجة البایانت بشكل عامٍّللجمهور.صفحة المشروع : https://dorniwang.github.io/SpeakerVid-5M/经过多次优化后的最终版本如下:التطور السريع للنماذج الكبيرة قد أسهم في تحقيق إنجازات هامة في مجال الإنسان الرقمي. توفر هذه الأساليب المتقدمة حلولًا عالية الدقة لقيادة وإنتاج الشخصيات ثلاثية الأبعاد (avatars)، مما دفع المجتمع العلمي نحو التركيز على تحدي جديد رائد وهو الإنسان الافتراضي ذو الوسيلتين السمعيتين والبصريتين الذي يمكنه التواصل بصرياً وبصوتياً بطريقة ثنائية.لتيسير البحث في هذا المجال الناشء نقدم مجموعة بيانات SpeakerVid-5M وهي أول مجموعة بيانات ضخمة وكاملة الجودة المصممة لإنشاء الإنسان الافتراضi ذو الوسيلتين السمعيتين والبصريتين الذي يمكنه التواصل بصرياً وبصوتياً بطريقة ثنائية.تحتوي Grouping data-5M التي تتخطى مدتها الزمنى 8,743 ساعة علینحو JpaRepository> 5,2 مليون مقاطع الفیديو للبورترایه البشريۃ وتغطي نطاقاَ مختلفاَ وأنواعاَ مختلفة من التجاوزلات بما فيها الحديث الفردى والاستماع والحوار الثناٸى.تشمل هيكل التنظم لهذه البایانات:1 – تصنيف حسب نوع التجاوزلة: * حوارات (dialogue branch) * حديث فردي (single branch) * استماع (listening branch) * حوارات متعددة الدور (multi-turn branch)2 – تقسيم حسب جودت البایانات: * Subset_تدريب ضخم العدد * Subset_تدقيق عالي الجودتوفر هذ البنية الثنائية فرصتا لمختلف الأعمال البحثيه المتعلقة بالإنسان اﻻفتراصى ذو الوسيلتين السمعيتين والبصريتين(2D virtual human tasks).فضلا عن ذلك ،نحن نوفر نظام محاضرة مرؤيه مستند الى الطراز الذآتى الانحداري(AR-based video chat baseline) مدرب علي هذي البایاناة ويأتي مرافق له بالمقياس واﻻختبار الخاصة به ليكون كمعيار VidChatBench للأعمال المستقبليه.سوف يتم توفير كلٍّمنمجموعة البایانت وأكواد معالجة البایانت بشكل عامٍّللجمهور.صفحة المشروع : https://dorniwang.github.io/SpeakerVid-5M/

SpeakerVid-5M: مجموعة بيانات كبيرة ذات جودة عالية لإنشاء التفاعلات الثنائية البصرية السمعية بين البشر | أحدث الأوراق البحثية | HyperAI