HyperAIHyperAI
منذ 2 أشهر

T2Net: الترجمة من الصور الاصطناعية إلى الحقيقية لحل مهام تقدير العمق من صورة واحدة

Chuanxia Zheng; Tat-Jen Cham; Jianfei Cai
T2Net: الترجمة من الصور الاصطناعية إلى الحقيقية لحل مهام تقدير العمق من صورة واحدة
الملخص

الطرق الحالية لتقدير العمق من صورة واحدة تعتمد على مجموعات بيانات تدريب تحتوي على أزواج صور حقيقية وعمقها أو أزواج استريو، والتي ليست سهلة الحصول عليها. نقترح إطارًا يتم تدريبه على أزواج صور اصطناعية وعمقها وصور حقيقية غير مترابطة، يتكون من شبكة ترجمة الصور لتحسين واقعية الصور المدخلة، تليها شبكة التنبؤ بالعمق. الفكرة الرئيسية هي أن تقوم الشبكة الأولى بدور مترجم المدخلات ذو الطيف الواسع، حيث تأخذ إما صورًا اصطناعية أو حقيقية، وتنتج بشكل مثالي صورًا واقعية مع تعديلات قليلة. يتم ذلك من خلال خسارة إعادة الإنشاء عند استخدام البيانات الحقيقية للتدريب، وخسارة GAN (شبكات الت generative adversarial) عند استخدام البيانات الاصطناعية، مما يزيل الحاجة إلى التنظيم الذاتي الاسترشادي. أما الشبكة الثانية فتتم تدريبها على خسارة مهمة لأزواج الصور الاصطناعية والعمق، مع خسارة GAN إضافية لتوحيد توزيعات الخصائص الحقيقية والاصطناعية. من المهم أن يمكن تدريب الإطار بطريقة شاملة من النهاية إلى النهاية (end-to-end)، مما يؤدي إلى نتائج جيدة، حتى أنه يتفوق على بعض طرق التعلم العميق المبكرة التي تستند إلى بيانات حقيقية مترابطة.

T2Net: الترجمة من الصور الاصطناعية إلى الحقيقية لحل مهام تقدير العمق من صورة واحدة | أحدث الأوراق البحثية | HyperAI