HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

أوميني هومان-1.5: غرس عقل نشط في الأفاتار من خلال المحاكاة المعرفية

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

أوميني هومان-1.5: غرس عقل نشط في الأفاتار من خلال المحاكاة المعرفية

الملخص

تمكّن النماذج الحالية للصورة الحية من إنتاج حركات بشرية سلسة، لكنها تواجه صعوبة في التحول من التشابه المادي البسيط إلى التقاط الجوهر الحقيقي للشخصية. وغالبًا ما تتماشى حركاتها مع مؤشرات منخفضة المستوى مثل إيقاع الصوت، دون امتلاك فهمٍ أعمق للعاطفة أو النية أو السياق. ولسد هذا الفجوة، نقترح إطارًا مصممًا لإنشاء حركات شخصية لا تكون ممكنة فعليًا فحسب، بل أيضًا متسقة من حيث المعنى وغنية بالتعبير. يعتمد نموذجنا، OmniHuman-1.5، على مساهمتين تقنيتين رئيسيتين. أولاً، نستفيد من نماذج اللغة الكبيرة متعددة الوسائط (Multimodal Large Language Models) لاستخلاص تمثيل نصي منظم للظروف، يوفر توجيهًا معنويًا عالي المستوى. ويُوجِّه هذا التوجيه مُولِّد الحركة لتجاوز التزامن الإيقاعي البسيط، مما يمكّن من إنتاج حركات متماشية مع السياق والعاطفة. ثانيًا، لضمان دمج فعّال لهذه المدخلات متعددة الوسائط وتقليل التعارضات بين الوسائط المختلفة، نقدّم معمارية DiT متعددة الوسائط مخصصة، تتميز بتصميم جديد يُعرف بـ "الإطار الظاهري الأخير" (Pseudo Last Frame). ونتيجة التآزر بين هذه المكونات، يُمكن لنموذجنا فهم دقيق للدلالات المشتركة بين الصوت والصورة والنص، مما يؤدي إلى إنتاج حركات متماسكة بعمق مع الشخصية والمشهد والمحتوى اللغوي. تُظهر التجارب الواسعة أن نموذجنا يحقق أداءً متميزًا في مجموعة شاملة من المقاييس، بما في ذلك دقة التزامن الشفهي، وجودة الفيديو، وطبيعة الحركة، والاتساق المعنوي مع الأوامر النصية. علاوةً على ذلك، يُظهر نهجنا قابلية توسيع ملحوظة في السيناريوهات المعقدة، مثل تلك التي تتضمن أشخاصًا متعددين أو كائنات غير بشرية.الموقع الرسمي: https://omnihuman-lab.github.io/v1_5/

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
أوميني هومان-1.5: غرس عقل نشط في الأفاتار من خلال المحاكاة المعرفية | الأوراق البحثية | HyperAI