تحرير الصور بواسطة الشبكات العصبية

التحرير التقليدي للصور يعتمد عادةً على التحفيز اليدوي، مما يجعله مرهقًا للعمل وصعب الوصول بالنسبة للأفراد ذوي التحكم الحركي المحدود أو القدرات اللغوية المحدودة. من خلال الاستفادة من التقدم الحديث في واجهات الدماغ-الكمبيوتر (BCIs) والنماذج الجينيراتيفية، نقترح نظام LoongX، وهو نهج لتحرير الصور بدون استخدام اليدين مدفوع بال-signals العصبية الفسيولوجية متعددة الأوضاع. يستخدم LoongX نماذج توزيعية متطورة تم تدريبها على مجموعة بيانات شاملة تتكون من 23,928 زوجًا من صور التحرير، كل منها مقترن بإشارات كهروضوئية (EEG)، الطيف القريب للحمراء الوظيفي (fNIRS)، الفوتومتر الضوئي (PPG)، وإشارات حركة الرأس التي تلتقط نوايا المستخدم. لمعالجة تنوع هذه الإشارات بشكل فعال، يدمج LoongX وحدتين أساسيتين. تقوم وحدة الفضاء الحالة عبر الأطراف (CS3) بتشفير الخصائص المحددة لكل وضع. أما وحدة الاندماج المُعَبِّرَة الديناميكية (DGF) فتجمع هذه الخصائص في فضاء خفي موحد، ثم يتم توحيده مع دلالات التحرير من خلال تعديل دقيقة لنموذج المحول التوزيعي (DiT). بالإضافة إلى ذلك، نقوم بتدريب المشفرات مسبقًا باستخدام التعلم التبايني لتوفيق الحالات الإدراكية مع النوايا الدلالية المنغرزة في اللغة الطبيعية. أظهرت التجارب الواسعة أن نظام LoongX يحقق أداءً مشابهًا للطرق المعتمدة على النصوص (CLIP-I: 0.6605 مقابل 0.6558؛ DINO: 0.4812 مقابل 0.4636) ويتفوق عليها عند دمج الإشارات العصبية مع الكلام (CLIP-T: 0.2588 مقابل 0.2549). تؤكد هذه النتائج الوعد الذي تحمله النماذج الجينيراتيفية العصبية في تمكين تحرير الصور السهل والبديهي وتفتح اتجاهات جديدة للتكنولوجيات الإبداعية المعتمدة على الإدراك. سيتم إصدار قواعد البيانات والشفرة البرمجية لدعم الأعمال المستقبلية وتعزيز التقدم في هذا المجال الناشئ.注释:- "multimodal neurophysiological signals" 翻译为 "ال-signals العصبية الفسيولوجية متعددة الأوضاع",其中 "signals" 保留英文以避免冗长。- "cross-scale state space" 翻译为 "الفضاء الحالة عبر الأطراف",这是较为通用的翻译。- "dynamic gated fusion" 翻译为 "الاندماج المُعَبِّرَة الديناميكية",这是较为通用的翻译。- 其他术语如 EEG, fNIRS, PPG, DiT 均保留英文,因为这些是国际上通用的技术缩写。