إزالة الضوضاء من البيانات/تعزيز الإشارة البيولوجية/تخفيف التسرب، نموذج التعلم العميق SUICA يحقق التنبؤ بالتعبير الجيني في أي موضع في شرائح النسخ المكانية

اقترحت مجموعة البروفيسور تشنغ ينكيانغ من جامعة طوكيو ومجموعة البروفيسور دينغ جون من جامعة ماكجيل طريقةً مشتركةً لنمذجة بيانات النسخ المكاني، تُعرف باسم SUICA. SUICA هو نموذج تعلّم عميق يعتمد على التمثيلات العصبية الضمنية (INR) والمشفرات التلقائية البيانية. تستخدم SUICA المشفرات التلقائية البيانية لتقليل أبعاد بيانات النسخ المكاني عالية الأبعاد، ثم تستخدم التمثيلات العصبية الضمنية لنمذجة إحداثيات بيانات النسخ المكاني وتعبيراتها الجينية المقابلة، مما يُمكّن من التنبؤ بالتعبير الجيني في أي موضع ضمن شريحة النسخ المكاني.تظهر النتائج أن بيانات النسخ المكاني التي تتم معالجتها بواسطة SUICA يمكن أن تتمتع بجودة أعلى وضوضاء أقل وإشارات بيولوجية أقوى.
تم اختيار النتائج ذات الصلة لمؤتمر ICML 2025 تحت عنوان "SUICA: تعلم التمثيلات العصبية الضمنية المتفرقة فائقة الأبعاد للنسخ المكاني".

عنوان الورقة:
https://go.hyper.ai/C6Zcl
قم بالتركيز على "هايبر ايه اي "الحساب الرسمي على WeChat، رد بـ "SUICA" في الكواليس للحصول على ملف PDF كامل
مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://go.hyper.ai/owxf6
ما هي بيانات النسخ المكاني؟
بيانات النسخ المكاني (ST) عبارة عن مصفوفة معلومات عالية الأبعاد تسجل في نفس الوقت "مستويات التعبير الجيني" و"الإحداثيات المكانية" على نفس قسم الأنسجة.بالمقارنة مع التصوير البانورامي التقليدي للأنسجة (WSI) الذي لا يمكنه إلا تقديم الهياكل المورفولوجية أو النسخ التقليدي الذي لا يمكنه إلا تحديد كمية التعبير الجيني ولكنه يفقد الاتجاه، فإن النسخ المكاني يربط "الجينات التي يتم التعبير عنها" بـ "مكان وجودها في الأنسجة"، ويرسم خريطة وظيفية للتفاعل بين حالة الخلية والبيئة الدقيقة في الأنسجة، وبالتالي يصبح شكل بيانات جديد يربط بين علم الأنسجة وعلم الجينوم الجزيئي.
لماذا هناك حاجة لتعزيز البيانات النسخية المكانية؟
على الرغم من أن التحليل النسخي المكاني قد جلب رؤى جزيئية غير مسبوقة تم حلها مكانيًا، إلا أن البيانات في العالم الحقيقي لا تزال محدودة بسبب ثلاثة اختناقات رئيسية:
① تناقض الحل والتكلفةكلما زادت كثافة المجسات وزاد عمق التسلسل، زادت تكلفة التجربة بشكل أسرع (على سبيل المثال، تكلفة تجربة التسلسل لـ stereo-seq أكبر من $4,000/cm²) وزاد إنتاج العينة؛
② تناثر الإشارة والضوضاء:عدد mRNAs الملتقطة في كل نقطة اكتشاف محدود، والتوسع الصفري أمر خطير، مما يجعل من السهل تفويت الجينات التنظيمية ذات الوفرة المنخفضة أو الرئيسية؛
③ التباين بين المنصات:تتمتع المنصات المختلفة باختلافات كبيرة في الترتيب المادي للمجس وعمق التسلسل والضوضاء الخلفية، مما يعيق بشكل مباشر دمج عينات متعددة أو تجارب متعددة.
تتضمن طرق التحسين الحسابي إعادة بناء الدقة الفائقة، وإزالة الضوضاء العميقة، وملء القيمة المفقودة، والتي يمكنها القيام بما يلي دون زيادة (أو زيادة طفيفة فقط) التكلفة التجريبية:
(أ) التنبؤ بالتعبير الجيني في المواقع التي لم يتم تسلسلها؛
(ب) استعادة التعبير الجيني الحقيقي الذي لا يمكن اكتشافه بسبب القيود التقنية وتحسين حساسية اكتشاف الجينات المعبر عنها بشكل مختلف والجينات المتغيرة مكانيًا؛
(ج) إنشاء تمثيلات ميزات موحدة قابلة للمقارنة والمشاركة عبر منصات مختلفة.
سيوفر هذا أساسًا للبيانات أكثر دقة وثراءً وقابلية للتطوير لتحليل اتصالات الخلايا، وشرح تقسيم المناطق المرضية، واكتشاف هدف الدواء، ونمذجة المفاصل متعددة الأوميكس، والتشخيص بمساعدة علم الأمراض بالذكاء الاصطناعي، مما يطلق العنان لإمكانات تكنولوجيا النسخ المكاني في البحث الأساسي والتحول السريري.
SUICA: نموذج موحد يعتمد على التمثيل العصبي الضمني ومشفر الرسم البياني التلقائي
تحديات نمذجة البيانات النسخية المكانية باستخدام التمثيلات العصبية الضمنية
تواجه نمذجة البيانات النسخية المكانية تحديات متعددة:
أولاً، يتم توزيع البيانات الأصلية بطريقة تشبه الشبكة في البعد المكاني.من حيث أبعاد الجينات، فإن العدد يصل إلى آلاف إلى عشرات الآلاف، مما يشكل مصفوفة "عالية الأبعاد للغاية، ومتناثرة للغاية، ومليئة بالضوضاء"؛ ويؤدي معدل التسرب المرتفع إلى إضعاف الإشارات البيولوجية الرئيسية، مما يؤدي إلى تفاقم الافتقار إلى القوة الإحصائية.
ثانياً، هناك توازن أساسي بين الدقة والتكلفة في منصات النسخ المكاني الحالية.——كلما زادت كثافة المجسات وعمق التسلسل، سترتفع التكلفة بشكل كبير، مما يجعل من الصعب تحقيق الدقة على مستوى الخلية وأحجام العينات واسعة النطاق في نفس الوقت.
ثالثًا، عند محاولة استخدام التمثيل العصبي الضمني لاستيفاء نقاط النسخ المكانية المنفصلة في حقول التعبير المستمر، هناك صعوبتان تقنيتان رئيسيتان يجب حلهما في نفس الوقت: أولاً، يتجاوز بُعد مساحة التعبير الجيني بكثير أبعاد الإشارات البصرية التقليدية، ومن الصعب التخلص من لعنة الأبعاد من خلال توسيع الشبكة أو تعميقها ببساطة؛ ثانيًا، يؤدي التوسع الصفري إلى توزيع غير متساوٍ للغاية لإشارات الإدخال، ومن الصعب التقاط أنماط التعبير المكاني المعقدة وغير الخطية باستخدام INRs التقليدية.
الشكل Autoencoder: تقليل أبعاد بيانات النسخ الفضائي عالية الأبعاد
بالمقارنة مع المُرمِّزات الذاتية التقليدية، نعتبر أولاً نقاط البيانات في كل نسخة مكانية من الترانسكربتوم عقدًا بيانية، ونُنشئ مصفوفة تجاور بناءً على القرب المكاني. ثم نستخدم التفاف الرسم البياني في المُرمِّز لتغليف التعبير الجيني الأصلي عالي الأبعاد، ودمج السياق المكاني المحلي في التمثيل، وضغطه إلى تمثيل منخفض الأبعاد. بهذه الطريقة، نتعلم التمثيل منخفض الأبعاد لبيانات النسخ المكانية عالية الأبعاد، ويمكن أن تُحسِّن إضافة التفاف الرسم البياني إشارة بيانات النسخ المكانية المتفرقة والضوضائية.
التمثيل العصبي الضمني: إنشاء خريطة بين إحداثيات نقطة التسلسل والتعبير الجيني
بعد الحصول على التمثيل منخفض الأبعاد،تستقبل شبكة التمثيل العصبي الضمني إحداثيات نقاط الاكتشاف كمدخلات وتتعلم المطابقة بين "النقطة" والتمثيل المنخفض الأبعاد المقابل لها.ويتم إرسال التمثيل منخفض الأبعاد الذي تم تعلمه والتنبؤ به بواسطة النموذج إلى جزء فك التشفير في مشفر الرسم البياني التلقائي، وبالتالي تحقيق وظيفة تعيين الإحداثيات للتعبير الجيني عالي الأبعاد.

التحقق التجريبي: يمكن لـ SUICA توليد نتائج تنبؤ أكثر دقة وأهمية بيولوجيًا
استخدمنا بيانات أجنة الفئران بتقنية تسلسل الاستريو وبيانات شرائح دماغ الفئران بتقنية تسلسل الشرائح لمقارنة المعايير. في مهمة التنبؤ بالنقاط المجهولة (دقة فائقة)، تفوقت SUICA بشكل ملحوظ على النماذج الحالية ونماذج التمثيل العصبي الضمني التقليدية، بما في ذلك FFN وSIREN، في مؤشرات رئيسية متعددة. قمنا بتصوير تأثير التنبؤ لكل طريقة، وأظهرت النتائج أن تنبؤ SUICA لا يقتصر على استعادة نمط التعبير الجيني بدقة فحسب، بل يعزز أيضًا إشارة التعبير الجيني. على سبيل المثال، نجح SEPT3، وهو جين يلعب دورًا مهمًا في نمو الجهاز العصبي لأجنة الفئران، في التقاط هذه الإشارة على الرغم من أن الإشارة في الحقيقة الأساسية غير واضحة.
من خلال تجميع وتصنيف النتائج المُولَّدة بطرق مختلفة، وجدنا بديهيًا أن أنواع الخلايا المُولَّدة بواسطة SUICA هي الأقرب إلى أنواع الخلايا الحقيقية. بالإضافة إلى ذلك، تحتفظ أنواع الخلايا المُولَّدة بواسطة SUICA بهياكل أعضاء وأنسجة أكثر تفصيلًا في الفضاء.وتوضح هذه النتائج أن SUICA لديه القدرة على تعزيز الإشارات البيولوجية وتحديد الاختلافات الدقيقة في الحالات الخلوية بين الأعضاء والأنسجة المختلفة.

التحقق التجريبي: يمكن لـ SUICA تقليل ضوضاء بيانات النسخ المكاني وتخفيف ظاهرة التسرب
للتحقق من قدرة SUICA على إزالة الضوضاء (إسناد الجينات) وقدرتها على استعادة التعبير الجيني الحقيقي من التسرب (الناتج عن 0 قراءة بسبب قيود تقنية التسلسل)، أضفنا ضوضاء غاوسية بشكل مصطنع إلى بيانات النسخ المكاني أو قمنا بضبط التعبير الجيني عشوائيًا على 0. في تجربة إسناد الجينات، قمنا بضبط 70٪ من التعبير الجيني في البيانات عشوائيًا على 0. في تجربة إزالة الضوضاء من التعبير الجيني، لضمان أن يكون توزيع التعبير الجيني بعد إضافة الضوضاء لا يزال مشابهًا لتوزيع التعبير الجيني الأصلي، قمنا بضبط جميع القيم السلبية على صفر.تظهر النتائج التجريبية أن SUICA متفوقة على الطرق الحالية في مؤشرات متعددة، مما يثبت قدرتها على تقليل الضوضاء في بيانات النسخ المكاني وتخفيف ظاهرة التسرب.
