InstantID: التوليد الحفاظ على الهوية بدون تدريب مسبق في ثوانٍ

تم إحراز تقدم كبير في مجال التركيب الصوري المخصص باستخدام طرق مثل التحويل النصي (Textual Inversion)، DreamBooth، و LoRA. ومع ذلك، فإن قابلية تطبيق هذه الطرق في العالم الحقيقي محدودة بسبب متطلبات التخزين العالية، وعمليات التعديل الدقيق الطويلة، والاحتياج إلى صور مرجعية متعددة. من ناحية أخرى، تواجه الطرق القائمة على تضمين الهوية (ID embedding) تحديات رغم أنها تتطلب فقط استدلالًا واحدًا: إما أنها تحتاج إلى تعديل دقيق مكثف عبر العديد من معلمات النموذج، أو أنها تفتقر إلى التوافق مع نماذج ما قبل التدريب المستخدمة في المجتمع، أو أنها لا تستطيع الحفاظ على جودة عالية للوجه. لمعالجة هذه القيود، نقدم InstantID، وهي حل قوي يعتمد على نماذج الانبعاث (diffusion model). يتعامل وحدتنا القابلة للتوصيل والاستخدام ببراعة مع شخصنة الصور بنمط مختلف باستخدام صورة وجه واحدة فقط، مع ضمان جودة عالية. لتحقيق هذا الهدف، صممنا شبكة هوية جديدة (IdentityNet) عن طريق فرض شروط دلالية قوية وشروط مكانية ضعيفة، مما يسمح بدمج صور الوجه والمعالم مع الرسائل النصية لتوجيه عملية إنشاء الصور. أثبت InstantID كفاءته وأداؤه الاستثنائي، مما يجعله مفيدًا للغاية في التطبيقات الحقيقية حيث تعتبر حفظ الهوية أمرًا بالغ الأهمية. بالإضافة إلى ذلك، يتماشى عملنا بشكل سلس مع نماذج الانبعاث المدربة مسبقًا الشائعة مثل SD1.5 و SDXL، مما يجعله وصلة قابلة للتكيف. سيتم توفير رموزنا ونقاط التحقق المدربة مسبقًا على الرابط https://github.com/InstantID/InstantID.