HyperAIHyperAI
منذ 2 أشهر

الإدراك العابر للحواس: هل يمكن استنتاج هندسة الوجه من الأصوات؟

Wu, Cho-Ying ; Hsu, Chin-Cheng ; Neumann, Ulrich
الإدراك العابر للحواس: هل يمكن استنتاج هندسة الوجه من الأصوات؟
الملخص

يتعمق هذا العمل في سؤال جوهري في إدراك الإنسان: هل يمكن استخلاص هندسة الوجه من أصوات الشخص؟ الأعمال السابقة التي درست هذا السؤال اعتمدت فقط على التطورات في تركيب الصور وحولت الأصوات إلى صور للوجه لبيان العلاقات، ولكن العمل في مجال الصور لا يتجنّب توقّع خصائص لا يمكن للأصوات أن تلمح إليها، مثل نسيج الوجه، تسريحات الشعر، والخلفيات. بدلاً من ذلك، ندرس قدرة إعادة بناء الوجوه ثلاثية الأبعاد لتركيزنا على الهندسة فحسب، وهي أكثر أساساً فسيولوجياً. نقترح إطارنا التحليلي "Cross-Modal Perceptionist" (الإدراك العابر للحاسة) تحت كلاً من التعلم الإشرافي والتعلم غير الإشرافي. أولاً، نقوم ببناء مجموعة بيانات Voxceleb-3D، والتي تمتد من Voxceleb وتتضمن أزواجًا من الأصوات وشبكات الوجه (face meshes)، مما يجعل التعلم الإشرافي ممكناً. ثانياً، نستخدم آلية تقريب المعرفة (knowledge distillation) لدراسة ما إذا كان يمكن استخلاص هندسة الوجه من الأصوات دون وجود أزواج من الأصوات وبيانات الوجوه ثلاثية الأبعاد عند توفر هذه البيانات بشكل محدود. نفكك السؤال الرئيسي إلى أربعة أجزاء ونقوم بتحليلات بصرية ورقمية كردود على السؤال الرئيسي. تؤكد نتائجنا تلك الموجودة في الفسلجة العصبية حول العلاقة بين الأصوات وهياكل الوجه. يوفر هذا العمل أسساً قابلة للتفسير للمستقبل في التعلم العابر للحاسة الذي يركز على الإنسان. راجعوا صفحة مشروعنا:https://choyingw.github.io/works/Voice2Mesh/index.html

الإدراك العابر للحواس: هل يمكن استنتاج هندسة الوجه من الأصوات؟ | أحدث الأوراق البحثية | HyperAI