HyperAIHyperAI
منذ 5 أيام

LazyDrag: تمكين التحرير القائم على السحب المستقر على نماذج التشتت متعددة الوسائط عبر التحويلات عبر التوافق الصريح

Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum
LazyDrag: تمكين التحرير القائم على السحب المستقر على نماذج التشتت متعددة الوسائط عبر التحويلات عبر التوافق الصريح
الملخص

أصبح الاعتماد على التوافقيات الضمنية الناتجة عن آلية الانتباه عائقًا رئيسيًا في عمليات التعديل القائمة على السحب، مما يؤدي إلى تنازل جوهري يُضعف قوة التحويل العكسي ويؤدي إلى تكاليف عالية في التحسين أثناء الاختبار (TTO). ويُحد هذا التنازل بشكل جوهري من القدرات التوليدية للنماذج التوزيعية، ويُثبّط قدرتها على إكمال مهام التعبئة عالية الدقة والخلق الموجه بالنص. في هذه الورقة، نقدّم "LazyDrag"، أول طريقة لتعديل الصور القائمة على السحب في نماذج التحويل التعدّدية الوسائط التوزيعية، والتي تُزيل بشكل مباشر الاعتماد على التوافقيات الضمنية. وبشكل ملموس، تُولّد طريقةنا خريطة تقابل صريحة من مدخلات السحب من المستخدم، كمرجع موثوق لتعزيز التحكم في آلية الانتباه. ويُتيح هذا المرجع الموثوق إمكانية إجراء عملية تحويل عكسي مستقرة بقوة كاملة، وهي المرة الأولى التي تُحقَّق في مهام التعديل القائمة على السحب. كما تُلغِي الحاجة إلى التحسين أثناء الاختبار، وتفتح الباب أمام القدرات التوليدية للنماذج. ونتيجة لذلك، يُوحّد LazyDrag بشكل طبيعي بين التحكم الهندسي الدقيق والتوجيه النصي، مما يمكّن من إجراء تعديلات معقدة لم تكن ممكنة سابقًا: مثل فتح فم كلب وتعبئة داخله، أو إنشاء كائنات جديدة مثل "كرة التنس"، أو في حالات السحب الغامضة، إجراء تغييرات واعية بالسياق مثل إدخال اليد إلى جيب. بالإضافة إلى ذلك، يدعم LazyDrag سير عمل متعدد الدورات مع عمليات مزدوجة للتحريك والتكبير في آنٍ واحد. وقد تم تقييم الأداء على معيار DragBench، حيث تفوقت طريقةنا على النماذج الأساسية من حيث دقة السحب وجودة الإدراك، كما أكد ذلك معيار VIEScore والتقييم البشري. إذ لا تُحقّق LazyDrag أداءً جديدًا من أعلى المستويات، بل تُشكّل أيضًا طريقًا جديدًا لتطوّر نماذج التعديل.