توقع الأشكال الثلاثية الأبعاد والقنوات والخصائص للمواد والسوائل والأجسام داخل حاويات شفافة، باستخدام مجموعة بيانات CGI TransProteus

نقدّم "TransProteus"، وهي مجموعة بيانات ومنهجيات لتنبؤ بالبنية ثلاثية الأبعاد، والقنوات التصويرية (masks)، والخصائص المادية للمواد والسوائل والأجسام داخل وعاء شفاف من صورة واحدة، دون افتراض معرفة مسبقة بمصدر الصورة أو معاملات الكاميرا. يُعد التلاعب بالمواد داخل الحاويات الشفافة أمرًا ضروريًا في العديد من المجالات، ويعتمد بشكل كبير على الرؤية البصرية. تقدّم هذه الدراسة مجموعة بيانات جديدة تم إنشاؤها بشكل تلقائي، تتضمن 50 ألف صورة لسوائل وأجسام صلبة داخل حاويات شفافة. تشمل تسميات الصور نماذج ثلاثية الأبعاد، وخصائص المواد (اللون/الشفافية/الخشونة...)، وخرائط التجزئة (segmentation masks) للوعاء ومحتواه. تم إنشاء الجزء الافتراضي (CGI) للمجموعة باستخدام 13 ألف كائن مختلف، و500 بيئة مختلفة (HDRI)، و1450 نسيجًا ماديًا (PBR)، مدمجة مع سوائل محاكاة وحاويات تم إنشاؤها تلقائيًا. بالإضافة إلى ذلك، نقدّم 104 صورًا واقعية لأجسام داخل حاويات شفافة، مصحوبة بخرائط عمق لكل من الحاوية ومحتواها. نقترح منهجية لا تعتمد على الكاميرا (camera agnostic) تتنبأ بالنموذج ثلاثي الأبعاد من صورة واحدة كخريطة XYZ. هذا يمكّن الشبكة المدربة من التنبؤ بالنموذج ثلاثي الأبعاد كخريطة تُعطي إحداثيات XYZ لكل بكسل دون الحاجة إلى معرفة مسبقة بمصدر الصورة. لحساب دالة الخسارة التدريبية، نستخدم المسافة بين أزواج من النقاط داخل النموذج ثلاثي الأبعاد بدلًا من الإحداثيات المطلقة XYZ، مما يجعل دالة الخسارة غير حساسة للانزياح (translation invariant). ونستخدم هذا الأسلوب للتنبؤ بالأنماط ثلاثية الأبعاد للحاويات ومحتواها من صورة واحدة. وأخيرًا، نُظهر شبكة تستخدم صورة واحدة للتنبؤ بخصائص المواد لمحتوى الحاوية والسطح الخارجي لها.