Spiking-Diffusion: نموذج تمايز منفصل كميّ بالكمّيات المتجهة باستخدام الشبكات العصبية الشوّكة

تتمتع الشبكات العصبية ذات الانفجارات (SNNs) بإمكانات هائلة في تطوير أشباه موصلات عصبية فعالة من حيث استهلاك الطاقة بفضل بنية العمل الثنائية والمستندة إلى الأحداث. وقد استُخدمت الشبكات العصبية ذات الانفجارات أساسًا في مهام التصنيف، لكن الدراسات المخصصة لمهام توليد الصور كانت محدودة. ولسد هذه الفجوة، نقترح نموذجًا يُسمى Spiking-Diffusion، الذي يستند إلى نموذج التفريغ المتقطع المُميّز بالمتجهات (vector quantized discrete diffusion model). أولاً، نطوّر نموذجًا للتحويل التلقائي التبايني المُميّز بالمتجهات باستخدام الشبكات العصبية ذات الانفجارات (VQ-SVAE) لتعلم فضاء مخفي منفصل للصور. في نموذج VQ-SVAE، يتم ترميز ميزات الصورة باستخدام كل من معدل تفجّر الشوائب (spike firing rate) والجهد بعد التماس (postsynaptic potential)، كما تم تصميم مُولّد شوائب تكيفي لاستعادة ميزات التضمين على شكل سلاسل من الشوائب. ثانيًا، نطبّق عملية التفريغ في الحالة الممتصة (absorbing state diffusion) داخل الفضاء المخفي المنفصل، ونُنشئ مُفكّك صور مُتفرّع بالشوائب (SDID) باستخدام الشبكات العصبية ذات الانفجارات لتنقية الصور. إن عملنا هو الأول الذي يبني نموذج التفريغ بالكامل من طبقات SNN. أظهرت النتائج التجريبية على مجموعات بيانات MNIST، FMNIST، KMNIST، Letters، وCifar10 أن نموذج Spiking-Diffusion يتفوق على النماذج الحالية القائمة على SNN في مهام التوليد. وحققنا قيم FID قدرها 37.50، 91.98، 59.23، 67.41، و120.5 على التوالي، مع تقليل بنسبة 58.60%، 18.75%، 64.51%، 29.75%، و44.88% في قيم FID مقارنةً بالعمل الأفضل في المجال. ستكون الشفرة المصدرية متاحة عبر الرابط: \url{https://github.com/Arktis2022/Spiking-Diffusion}.