إطار Chain-of-Zoom يسمح بزيادة الدقة القصوى للصور دون الحاجة لإعادة التدريب
ملخص بحث Chain-of-Zoom: تقنية جديدة لزيادة دقة الصور دون الحاجة لإعادة التدريب طور فريق من الباحثين في الذكاء الاصطناعي من جامعة كايس تك (KAIST AI) في كوريا الجنوبية إطارًا جديدًا يُطلق عليه اسم "Chain-of-Zoom" (CoZ)، والذي يسمح بإنشاء صور عالية الدقة جدًا باستخدام النماذج الموجودة من زيادة الدقة دون الحاجة لإعادة تدريبها. هذا الإطار، الذي تم نشره على خادم الأوراق العلمية قبل النشر (arXiv)، يعتمد على عملية تكبير متدرجة تُحسن جودة الصورة تدريجيًا في كل خطوة. الخلفية والمشكلة لاحظ الفريق الكوري أن معظم الإطارات الحالية لتحسين دقة الصور تعتمد على التقنيات التقليدية مثل التحويل الخطي (interpolation) أو الانحدار (regression) عند التكبير، مما يؤدي غالبًا إلى صور مُبهمة ومشوهة. لحل هذه المشكلة، اعتمدوا على طريقة جديدة تقوم بتكبير الصورة خطوة بخطوة، حيث يتم تحسين كل خطوة بالاستفادة من الخطوات السابقة. كيف يعمل الإطار الجديد يتألف الإطار "Chain-of-Zoom" من سلسلة من العمليات التي تهدف إلى زيادة الدقة بشكل تدريجي. في كل خطوة، يستخدم الإطار نموذج زيادة الدقة (SR model) موجودًا مسبقًا لبدء عملية التحسين. أثناء هذه العملية، يقوم نموذج اللغة المرئية (Vision-Language Model - VLM) بإنشاء ملاحظات وصفية تساعد نموذج زيادة الدقة في عملية التوليد. النتيجة هي إنتاج جزء مكبّر من الصورة الأولى مع حفظ التفاصيل الدقيقة والدقة السياقية. يتم تكرار هذه العملية باستخدام ملاحظات مفيدة من نموذج اللغة المرئية، مما يؤدي إلى تحسين تدريجي في دقة الصورة حتى الوصول إلى النسخة النهائية. لضمان أن تكون الملاحظات الوصفية مفيدة، طبق الباحثون تقنيات التعلم المعزز (reinforcement learning). النتائج أظهرت الاختبارات أن الإطار "Chain-of-Zoom" قادر على تجاوز نتائج المعايير القياسية التقليدية في تحسين جودة الصور عند التكبير بمعدلات كبيرة (من 16 مرة إلى 256 مرة). كما أشار الباحثون إلى أن إطاراتهم لا تتطلب إعادة تدريب لتحسين جودة الصور، مما يجعلها أكثر مرونة وقابلية للنقل. تحذيرات واستخدامات يؤكد الباحثون على أن الصورة المكبّرة ليست حقيقية بل تم توليدها باستخدام الذكاء الاصطناعي. هذا يعني أنه يجب استخدام الإطار بحذر في التطبيقات التي تتطلب دقة عالية للغاية، مثل التعرف على أرقام لوحة سيارة فارّة من سرقة بنك. على الرغم من أن الصورة قد تبدو واضحة ومفصلة، إلا أن التفاصيل التي تم توليدها قد لا تتطابق مع التفاصيل الحقيقية. تقييم الخبراء يُعتبر الإطار "Chain-of-Zoom" تقدمًا كبيرًا في مجال معالجة الصور والذكاء الاصطناعي، حيث أنه يوفر حلًا فعالًا لزيادة دقة الصور بدون الحاجة لإعادة التدريب. هذا يمكن أن يساهم في تطبيقات متنوعة مثل تحسين جودة الصور القديمة أو الصور المنخفضة الدقة في مجالات مثل الطب والفن والتصوير الفوتوغرافي. نبذة عن جامعة KAIST AI جامعة كايس تك (KAIST AI) هي أحد أبرز المؤسسات التعليمية والبحثية في كوريا الجنوبية المتخصصة في مجال الذكاء الاصطناعي وتكنولوجيا المعلومات. تُساهم الجامعة بشكل كبير في تطوير التقنيات المتقدمة والمبتكرة التي تُحدث ثورة في مجالات متنوعة، بما في ذلك الصور والفيديو ومعالجة اللغة الطبيعية.
