شبكة تجميع متعددة القطع العميقة لتقييم الأسلوب والجماليات والجودة في الصور

تُجري هذه الورقة البحثية دراسةً للقضايا المتعلقة بنمط الصورة، والجمال، وتقدير الجودة، والتي تتطلب تفاصيل دقيقة من صور عالية الدقة، باستخدام نهج تدريب الشبكات العصبية العميقة. في الوقت الراهن، تستخلص الشبكات العصبية التلافيفية العميقة غالبًا عينة واحدة فقط، مثل قطعة مصغرة (down-sized crop) من كل صورة كمثال تدريبي. ومع ذلك، قد لا تمثل هذه القطعة الواحدة دائمًا الصورة بالكامل، مما يؤدي إلى غموض أثناء عملية التدريب. نقترح نهجًا جديدًا لتدريب الشبكة العصبية متعددة القطع (deep multi-patch aggregation network)، يتيح لنا تدريب النماذج باستخدام عدة قطع مستخرجة من صورة واحدة. نحقق ذلك من خلال بناء أعمدة متعددة ومشتركة داخل الشبكة العصبية، وتقديم عدة قطع إلى كل عمود. والأهم من ذلك، نقترح طبقتين جديدتين في الشبكة (طبقة الإحصائيات وطبقة الترتيب) لدعم عملية تجميع هذه القطع. تعزز الشبكة العصبية العميقة متعددة القطع المقترحة دمج التعلم المشترك للسمات مع تعلم وظيفة التجميع ضمن إطار موحد. ونُظهر فعالية الشبكة العصبية العميقة متعددة القطع في حل المشكلات الثلاثة، وهي: التعرف على نمط الصورة، وتصنيف جودة الجمال، وتقدير جودة الصورة. وقد أظهرت النماذج التي تم تدريبها باستخدام الشبكات المقترحة أداءً متفوقًا بشكل كبير على أحدث النماذج في جميع التطبيقات الثلاثة.