Command Palette
Search for a command to run...
الإدراك العابر للحواس: هل يمكن استنتاج هندسة الوجه من الأصوات؟
الإدراك العابر للحواس: هل يمكن استنتاج هندسة الوجه من الأصوات؟
Wu Cho-Ying ; Hsu Chin-Cheng ; Neumann Ulrich
الملخص
يتعمق هذا العمل في سؤال جوهري في إدراك الإنسان: هل يمكن استخلاص هندسة الوجه من أصوات الشخص؟ الأعمال السابقة التي درست هذا السؤال اعتمدت فقط على التطورات في تركيب الصور وحولت الأصوات إلى صور للوجه لبيان العلاقات، ولكن العمل في مجال الصور لا يتجنّب توقّع خصائص لا يمكن للأصوات أن تلمح إليها، مثل نسيج الوجه، تسريحات الشعر، والخلفيات. بدلاً من ذلك، ندرس قدرة إعادة بناء الوجوه ثلاثية الأبعاد لتركيزنا على الهندسة فحسب، وهي أكثر أساساً فسيولوجياً. نقترح إطارنا التحليلي "Cross-Modal Perceptionist" (الإدراك العابر للحاسة) تحت كلاً من التعلم الإشرافي والتعلم غير الإشرافي. أولاً، نقوم ببناء مجموعة بيانات Voxceleb-3D، والتي تمتد من Voxceleb وتتضمن أزواجًا من الأصوات وشبكات الوجه (face meshes)، مما يجعل التعلم الإشرافي ممكناً. ثانياً، نستخدم آلية تقريب المعرفة (knowledge distillation) لدراسة ما إذا كان يمكن استخلاص هندسة الوجه من الأصوات دون وجود أزواج من الأصوات وبيانات الوجوه ثلاثية الأبعاد عند توفر هذه البيانات بشكل محدود. نفكك السؤال الرئيسي إلى أربعة أجزاء ونقوم بتحليلات بصرية ورقمية كردود على السؤال الرئيسي. تؤكد نتائجنا تلك الموجودة في الفسلجة العصبية حول العلاقة بين الأصوات وهياكل الوجه. يوفر هذا العمل أسساً قابلة للتفسير للمستقبل في التعلم العابر للحاسة الذي يركز على الإنسان. راجعوا صفحة مشروعنا:https://choyingw.github.io/works/Voice2Mesh/index.html