EasyCom: مجموعة بيانات واقع مُعزَّز لدعم الخوارزميات في التواصل السهل في البيئات الصاخبة

يمكن لمنصة الواقع المعزز (AR) أن تُسهم في تقليل تأثير حفلة الكوكتيل. قد تُستخدم النظارات المستقبلية المزودة بتقنية الواقع المعزز في استغلال معلومات من مجموعة متنوعة من المستشعرات التي تغطي عدة وسائط مختلفة. ويتطلب تدريب واختبار خوارزميات معالجة الإشارات والتعلم الآلي في مهام مثل تشكيل الشعاع (beam-forming) وتحسين الصوت، بيانات عالية الجودة تمثلية. وبقدر معرفة المؤلف، لم تكن هناك حتى تاريخ النشر أي مجموعات بيانات متاحة تحتوي على بيانات صوتية ومرئية متعددة القنوات من منظور الشخص (egocentric) ومُزامنة، مع حركة ديناميكية ومحادثات في بيئة صاخبة. في هذا العمل، نصف ونُقيّم ونُطلق مجموعة بيانات تتضمن أكثر من 5 ساعات من البيانات متعددة الوسائط، والتي تُعد مفيدة لتدريب واختبار الخوارزميات المُستخدمة في تحسين المحادثات لمستخدمي نظارات الواقع المعزز. ونُقدّم نتائج تحسّن في وضوح الكلام ونوعيته ونسبة الإشارة إلى الضوضاء لطريقة أساسية (baseline)، مع ملاحظة تحسن في جميع المقاييس التي تم اختبارها. وتتضمن المجموعة التي نُطلقها بيانات صوتية متعددة القنوات من مصفوفة ميكروفونات مدمجة في نظارات الواقع المعزز (من منظور الشخص)، ومقاطع فيديو ملونة بزاوية رؤية واسعة (wide field-of-view RGB video)، وبيانات وضع مصدر الصوت (speech source pose)، وبيانات صوتية من ميكروفونات النظارة، وبيانات مُعلّقة عن النشاط الصوتي (annotated voice activity)، ونصوص مكتوبة للكلام (speech transcriptions)، ومربعات حدودية للرأس (head bounding boxes)، بالإضافة إلى علامات تحديد الهدف من الحديث ومعرفة مصدر الكلام. وقد قمنا بإنشاء هذه المجموعة ونُطلقها لدعم الأبحاث المتعلقة بحلول متعددة الوسائط للواقع المعزز في مواجهة مشكلة حفلة الكوكتيل.