HyperAIHyperAI

Command Palette

Search for a command to run...

نحو الترجمة متعددة الوسائط من الصورة إلى الصورة

Jun-Yan Zhu Richard Zhang Deepak Pathak Trevor Darrell Alexei A. Efros Oliver Wang Eli Shechtman

الملخص

تواجه العديد من مشاكل الترجمة الصورية (الصورة إلى الصورة) الغموض، حيث قد تتوافق صورة مدخل واحدة مع عدة نواتج محتملة. في هذا البحث، نهدف إلى نمذجة \emph{توزيع} للنواتج المحتملة في إطار النمذجة التوليدية المشروطة. يتم تجميع الغموض في متجه خفي منخفض البعد، والذي يمكن عينه بشكل عشوائي عند الاختبار. يتعلم المولد رسم الخريطة بين المدخل المعطى، مقترناً بهذا الرمز الخفي، والناتج. نشجع بوضوح العلاقة العكسية بين الناتج والرمز الخفي. هذا يساعد على منع وجود علاقة كثيرة إلى واحدة من الرمز الخفي إلى الناتج أثناء التدريب، وهي المشكلة المعروفة باسم انهيار الوضعيات (mode collapse)، وينتج عنه نواتج أكثر تنوعًا. نستكشف عدة متغيرات لهذه الطريقة باستخدام أهداف تدريب مختلفة، هياكل شبكات عصبية مختلفة، وطرق حقن الرمز الخفي المختلفة. تشجع طريقة المقترحة لدينا على التناسق البيجي (bijective) بين الترميز الخفي وأنماط النواتج. نقدم مقارنة منهجية لطريقتنا ومتغيراتها الأخرى فيما يتعلق بالواقعية الإدراكية والتنوع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp