Command Palette
Search for a command to run...
PICABench: إلى أي مدى وصلنا في تحرير الصور بشكل واقعي فيزيائيًا؟

الملخص
أحرزت عمليات تحرير الصور تقدماً ملحوظاً في الآونة الأخيرة. فبالفعل، تمكن النماذج الحديثة من اتباع تعليمات معقدة لتعديل المحتوى الأصلي. ولكن بeyond إتمام تعليمات التحرير، فإن التأثيرات الفيزيائية المرافقة هي المفتاح لضمان واقعية النتائج. على سبيل المثال، ينبغي أن يُزال الظل والانعكاسات والتفاعلات مع الأجسام القريبة عند إزالة كائن ما. للأسف، تتركز النماذج والbenchmark الحالية بشكل رئيسي على إتمام التعليمات، وتجاهل هذه التأثيرات الفيزيائية. لذا، في هذه اللحظة، ما مدى بُعدنا عن تحرير صور واقعي من الناحية الفيزيائية؟ وللإجابة عن هذا السؤال، نقدّم "PICABench"، وهو معيار مُنظَّم لتقييم الواقعية الفيزيائية عبر ثمانية أبعاد فرعية (تغطي البصريات، والآليات، وتحولات الحالة) لمعظم عمليات التحرير الشائعة (الإضافة، الإزالة، تغيير السمات، إلخ). ونُقدّم أيضاً "PICAEval"، وهو بروتوكول تقييم موثوق يستخدم نموذج لغة وصورة كمُقيّم (VLM-as-a-judge)، مع ملاحظات بشرية على مستوى الحالة (per-case) وعلى مستوى المنطقة (region-level)، وطرح أسئلة محددة. وبالإضافة إلى تطوير المعيار، نستكشف أيضاً حلولاً فعّالة من خلال تعلّم الفيزياء من مقاطع الفيديو، ونُنشئ مجموعة بيانات تدريبية تُسمى "PICA-100K". وبعد تقييم معظم النماذج الرائدة، نلاحظ أن الواقعية الفيزيائية تظل مشكلة صعبة، وتحتاج إلى مساحات واسعة للبحث والتطوير. ونأمل أن يُمكّن هذا المعيار وحلولنا المقترحة من تأسيس قاعدة متينة للعمل المستقبلي، الذي ينتقل من تحرير المحتوى البسيط إلى واقعية متماسكة من الناحية الفيزيائية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.