HyperAIHyperAI

Command Palette

Search for a command to run...

الإدراك العابر للحواس: هل يمكن استنتاج هندسة الوجه من الأصوات؟

Wu Cho-Ying ; Hsu Chin-Cheng ; Neumann Ulrich

الملخص

يتعمق هذا العمل في سؤال جوهري في إدراك الإنسان: هل يمكن استخلاص هندسة الوجه من أصوات الشخص؟ الأعمال السابقة التي درست هذا السؤال اعتمدت فقط على التطورات في تركيب الصور وحولت الأصوات إلى صور للوجه لبيان العلاقات، ولكن العمل في مجال الصور لا يتجنّب توقّع خصائص لا يمكن للأصوات أن تلمح إليها، مثل نسيج الوجه، تسريحات الشعر، والخلفيات. بدلاً من ذلك، ندرس قدرة إعادة بناء الوجوه ثلاثية الأبعاد لتركيزنا على الهندسة فحسب، وهي أكثر أساساً فسيولوجياً. نقترح إطارنا التحليلي "Cross-Modal Perceptionist" (الإدراك العابر للحاسة) تحت كلاً من التعلم الإشرافي والتعلم غير الإشرافي. أولاً، نقوم ببناء مجموعة بيانات Voxceleb-3D، والتي تمتد من Voxceleb وتتضمن أزواجًا من الأصوات وشبكات الوجه (face meshes)، مما يجعل التعلم الإشرافي ممكناً. ثانياً، نستخدم آلية تقريب المعرفة (knowledge distillation) لدراسة ما إذا كان يمكن استخلاص هندسة الوجه من الأصوات دون وجود أزواج من الأصوات وبيانات الوجوه ثلاثية الأبعاد عند توفر هذه البيانات بشكل محدود. نفكك السؤال الرئيسي إلى أربعة أجزاء ونقوم بتحليلات بصرية ورقمية كردود على السؤال الرئيسي. تؤكد نتائجنا تلك الموجودة في الفسلجة العصبية حول العلاقة بين الأصوات وهياكل الوجه. يوفر هذا العمل أسساً قابلة للتفسير للمستقبل في التعلم العابر للحاسة الذي يركز على الإنسان. راجعوا صفحة مشروعنا:https://choyingw.github.io/works/Voice2Mesh/index.html


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp