HyperAIHyperAI
منذ 2 أشهر

نحو الترجمة متعددة الوسائط من الصورة إلى الصورة

Jun-Yan Zhu; Richard Zhang; Deepak Pathak; Trevor Darrell; Alexei A. Efros; Oliver Wang; Eli Shechtman
نحو الترجمة متعددة الوسائط من الصورة إلى الصورة
الملخص

تواجه العديد من مشاكل الترجمة الصورية (الصورة إلى الصورة) الغموض، حيث قد تتوافق صورة مدخل واحدة مع عدة نواتج محتملة. في هذا البحث، نهدف إلى نمذجة \emph{توزيع} للنواتج المحتملة في إطار النمذجة التوليدية المشروطة. يتم تجميع الغموض في متجه خفي منخفض البعد، والذي يمكن عينه بشكل عشوائي عند الاختبار. يتعلم المولد رسم الخريطة بين المدخل المعطى، مقترناً بهذا الرمز الخفي، والناتج. نشجع بوضوح العلاقة العكسية بين الناتج والرمز الخفي. هذا يساعد على منع وجود علاقة كثيرة إلى واحدة من الرمز الخفي إلى الناتج أثناء التدريب، وهي المشكلة المعروفة باسم انهيار الوضعيات (mode collapse)، وينتج عنه نواتج أكثر تنوعًا. نستكشف عدة متغيرات لهذه الطريقة باستخدام أهداف تدريب مختلفة، هياكل شبكات عصبية مختلفة، وطرق حقن الرمز الخفي المختلفة. تشجع طريقة المقترحة لدينا على التناسق البيجي (bijective) بين الترميز الخفي وأنماط النواتج. نقدم مقارنة منهجية لطريقتنا ومتغيراتها الأخرى فيما يتعلق بالواقعية الإدراكية والتنوع.

نحو الترجمة متعددة الوسائط من الصورة إلى الصورة | أحدث الأوراق البحثية | HyperAI