منذ 8 أشهر

الملخص

النماذج الحديثة للتركيب النصي على نطاق واسع قد جذبت اهتمامًا كبيرًا بفضل قدرتها الملفتة على توليد صور متنوعة للغاية تتبع النصوص المعطاة. تعتبر هذه الطرق القائمة على النص خاصة جذابة للبشر الذين اعتادوا على وصف نيتهم بشكل شفهي. ولذلك، من الطبيعي أن يتم توسيع التركيب النصي للصور إلى تحرير الصور القائمة على النص. يعد التحرير تحديًا لهذه النماذج التوليدية، حيث أن خاصية طبيعية لتقنية التحرير هي الحفاظ على معظم الصورة الأصلية، بينما في النماذج القائمة على النص، غالبًا ما يؤدي تعديل بسيط في دليل النص إلى نتيجة مختلفة تمامًا. تقوم الأساليب الرائدة بتخفيف هذا التحدي من خلال طلب المستخدمين تقديم قناع مكاني (spatial mask) لتحديد موقع التعديل، وبالتالي تجاهل الهيكل والمحتوى الأصليين داخل المنطقة المقنعة. في هذا البحث، نسعى لتحقيق إطار عمل تحرير سهل الفهم يتحكم فيه النص فقط. لهذا الغرض، نقوم بتحليل نموذج مشروط بالنص بدقة ونلاحظ أن طبقات الانتباه المتقاطع (cross-attention layers) هي المفتاح لتحكم العلاقة بين تخطيط الصورة المكاني وكل كلمة في الدليل. بناءً على هذه الملاحظة، نقدم عدة تطبيقات تراقب تركيب الصورة عن طريق تعديل الدليل النصي فقط. وهذا يشمل التحرير المحلي عن طريق استبدال كلمة، والتحرير العالمي بإضافة مواصفة، وحتى التحكم الدقيق في مدى انعكاس الكلمة في الصورة. نعرض نتائجنا على مجموعة متنوعة من الصور والأوامر، مما يدل على تركيب عالي الجودة وإخلاص لأوامر التعديل.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Amir Hertz1,2, Ron Mokady1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Amir Hertz1,2, Ron Mokady1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Amir Hertz1,2, Ron Mokady1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحرير الصور من دعوة إلى دعوة باستخدام التحكم في الانتباه المتقاطع

Amir Hertz*1,2, Ron Mokady*1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحرير الصور من دعوة إلى دعوة باستخدام التحكم في الانتباه المتقاطع

Amir Hertz*1,2, Ron Mokady*1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحرير الصور من دعوة إلى دعوة باستخدام التحكم في الانتباه المتقاطع

Amir Hertz*1,2, Ron Mokady*1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Amir Hertz1,2, Ron Mokady1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

Amir Hertz1,2, Ron Mokady1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

Amir Hertz1,2, Ron Mokady1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2