HyperAIHyperAI
منذ 2 أشهر

DreamBooth: ضبط نموذج التفتيت النصي إلى الصور بدقة لتقديم توليد موجه بالموضوع

Ruiz, Nataniel ; Li, Yuanzhen ; Jampani, Varun ; Pritch, Yael ; Rubinstein, Michael ; Aberman, Kfir
DreamBooth: ضبط نموذج التفتيت النصي إلى الصور بدقة لتقديم توليد موجه بالموضوع
الملخص

حققت نماذج النص إلى الصورة الكبيرة قفزة ملحوظة في تطور الذكاء الاصطناعي، مما مكّن من إنتاج صور عالية الجودة ومتنوعة من دعوة نصية معينة. ومع ذلك، فإن هذه النماذج تعاني من عدم القدرة على تقليد مظهر الأجسام في مجموعة مرجعية معينة وإنتاج صور جديدة لها في سياقات مختلفة. في هذا البحث، نقدم طريقة جديدة لـ "الشخصنة" (personalization) لنماذج التوسع من النص إلى الصورة. عند تقديم بضعة صور فقط للجسم كمدخلات، نقوم بضبط نموذج النص إلى الصورة المدرب مسبقًا بحيث يتعلم ربط معرف فريد بذلك الجسم المحدد. بمجرد أن يتم تضمين الجسم في مجال الإخراج للنموذج، يمكن استخدام المعرف الفريد لإنتاج صور واقعية جديدة للجسم في سياقات مشاهد مختلفة.من خلال الاستفادة من الأولوية الدلالية المدمجة في النموذج مع خسارة الحفاظ على الأولوية الخاصة بالفئة ذات الأصل الذاتي الجديدة (autogenous class-specific prior preservation loss)، تمكن تقنيتنا من إنتاج الجسم في مشاهد وأوضاع وزوايا رؤية وظروف إضاءة متنوعة لا تظهر في الصور المرجعية. نطبق تقنيتنا على عدة مهمات كانت تعتبر سابقًا غير قابلة للحل، بما في ذلك إعادة سياق الجسم، وإنتاج الرؤية المنظمة بالنص، والرسم الفني، مع الحفاظ على الخصائص الرئيسية للجسم. كما نوفر مجموعة بيانات جديدة وبروتوكول تقييم لهذا المهمة الجديدة التي تعتمد على إنتاج الجسم. صفحة المشروع: https://dreambooth.github.io/

DreamBooth: ضبط نموذج التفتيت النصي إلى الصور بدقة لتقديم توليد موجه بالموضوع | أحدث الأوراق البحثية | HyperAI