HyperAIHyperAI
منذ 17 أيام

النماذج التفجيرية ذات التحسين الذاتي باستخدام البيانات الاصطناعية

Sina Alemohammad, Ahmed Imtiaz Humayun, Shruti Agarwal, John Collomosse, Richard Baraniuk
النماذج التفجيرية ذات التحسين الذاتي باستخدام البيانات الاصطناعية
الملخص

يواجه عالم الذكاء الاصطناعي نقصًا متزايدًا في البيانات الحقيقية اللازمة لتدريب النماذج التوليدية الكبيرة بشكل متزايد، مما يُعزز الضغط المتسارع على التدريب باستخدام بيانات مُصطنعة. وللأسف، فإن تدريب النماذج التوليدية الجديدة على بيانات مُصطنعة مستمدة من النماذج الحالية أو السابقة يؤدي إلى تكوّن حلقة ذاتية التدمير (autophagous) تُضعف جودة و/أو تنوع البيانات المُصطنعة، ظاهرة يُعرف بها "اضطراب التغذية الذاتية للنموذج" (Model Autophagy Disorder - MAD) أو "انهيار النموذج". وتشير التفكير السائد حاليًا حول مسألة التغذية الذاتية إلى تجنّب استخدام البيانات المُصطنعة في تدريب النماذج، لتفادي تدهور النظام نحو حالة MAD. في هذه الورقة، نتبع نهجًا مختلفًا يُعامل فيه البيانات المُصطنعة بشكل مُختلف عن البيانات الحقيقية. فنُقدّم مفهومًا تدريبيًا جديدًا للنماذج التبادلية يُسمى "النماذج التبادلية الذاتية التحسين باستخدام البيانات المُصطنعة" (Self-IMproving diffusion models with Synthetic data - SIMS)، والذي يستخدم بيانات مُصطنعة يتم إنتاجها ذاتيًا لتوفير توجيه سلبي أثناء عملية التوليد، بهدف دفع عملية التوليد في النموذج بعيدًا عن المانيفولد غير المثالي للبيانات المُصطنعة واتجاهه نحو التوزيع الحقيقي للبيانات. ونُظهر أن SIMS قادرة على التحسين الذاتي؛ حيث تمكّنت من تحقيق أرقام قياسية جديدة وفقًا لمعيار "مسافة فريتشيت إنسيبشن" (Fréchet Inception Distance - FID) في توليد بيانات CIFAR-10 وImageNet-64، وحققت نتائج تنافسية على FFHQ-64 وImageNet-512. علاوةً على ذلك، وبما نعلم، فإن SIMS هي أول خوارزمية توليدية ذكية اصطناعية وقائية قادرة على التدريب التكراري على بيانات مُصطنعة مُولدة ذاتيًا دون أن تُصاب بحالة MAD. كمكافأة إضافية، يمكن لـ SIMS تعديل توزيع البيانات المُصطنعة في نموذج التبادل ليتوافق مع أي توزيع هدف داخلي مطلوب، مما يُسهم في تقليل التحيّزات وضمان العدالة.