HyperAI

تم اختياره لـ NeurIPS 2024! اقترح فريق الأكاديمية الصينية للعلوم إطار عمل جديد لفك تشفير الدماغ غير الجراحي، مما وضع الأساس لتطوير واجهات الدماغ والحاسوب والنماذج المعرفية

特色图像

هل تستطيع أن تتخيل تصور الصور التي تراها أو تفكر بها أو حتى تحلم بها؟ وهذا ليس مجرد خيال جامح. وفي وقت مبكر من عام 2008، اقترح جاك جالانت، وهو عالم أعصاب بجامعة كاليفورنيا في بيركلي، فرضيته في مجلة نيتشر. لقد استخدموا التصوير بالرنين المغناطيسي الوظيفي (fMRI) - وهي تقنية تصوير وظيفي غير جراحية للدماغ "لقراءة" نشاط القشرة البصرية للموضوع، ثم قاموا بتصور الصور التي رآها الموضوع من خلال إعادة البناء البصري.وكان هذا بمثابة نداء واضح للعلماء في جميع أنحاء العالم لفك شفرة الدماغ.

بالمقارنة مع تقنية فك تشفير الدماغ الغازية، فإن تقنية فك تشفير الدماغ غير الغازية المتمثلة في التصوير بالرنين المغناطيسي الوظيفي تحظى بتقدير كبير لأنها تحقق فك تشفير الدماغ بطريقة أبسط وأكثر أمانًا. إنها تتمتع بقيمة تطبيقية كبيرة في العديد من المجالات مثل أبحاث علم الأعصاب الإدراكي، وتطبيقات واجهة الدماغ والحاسوب، والتشخيص الطبي السريري.

ومع ذلك، فإن فك تشفير إشارات الدماغ بطريقة غير جراحية يعوقه الاختلافات الفردية وتعقيد تمثيل الإشارات العصبية، ويظل يشكل تحديًا رئيسيًا في عملية فك تشفير الدماغ.من ناحية أخرى، تعتمد الطرق التقليدية على نماذج مخصصة وعدد كبير من التجارب المكلفة؛ من ناحية أخرى، بسبب الافتقار إلى الدلالات الدقيقة والقدرة على التفسير، فمن الصعب على الطرق التقليدية إعادة إنتاج التجربة البصرية الفردية بدقة في مهام إعادة البناء البصري.

ردًا على ذلك، قام فريق البروفيسور زينج يي من معهد الأتمتة التابع للأكاديمية الصينية للعلوم بتصميم إطار تكامل متعدد الوسائط بشكل مبتكر يجمع بين مستخلصات ميزات التصوير بالرنين المغناطيسي الوظيفي ونماذج اللغة الكبيرة لحل مشكلة إعادة البناء البصري لنشاط الدماغ..وباستخدام Vision Transformer 3D (ViT3D)، قام الباحثون بدمج بنية الدماغ ثلاثية الأبعاد مع الدلالات البصرية، وتنسيق ميزات التصوير بالرنين المغناطيسي الوظيفي مع التضمينات البصرية متعددة المستويات من خلال مستخرج ميزات موحد فعال، واستخراج المعلومات من بيانات تجريبية واحدة دون الحاجة إلى نموذج محدد. علاوة على ذلك، يشتمل المستخرج على ميزات مرئية متعددة المستويات، مما يبسط التكامل مع نماذج اللغة الكبيرة (LLMs)، ويمكن تطوير نماذج كبيرة متعددة الوسائط من خلال زيادة مجموعات بيانات التصوير بالرنين المغناطيسي الوظيفي وبيانات النص المرتبطة بصور التصوير بالرنين المغناطيسي الوظيفي.

تم قبول النتيجة، التي تحمل عنوان "الرؤية العصبية للغة: تعزيز إعادة بناء الرؤية والتفاعل اللغوي القائم على التسجيل الدماغي"، من قبل NeurIPS 2024.

أبرز الأبحاث:

* تعمل هذه الدراسة على تحسين القدرة على إعادة بناء المحفزات البصرية من خلال إشارات الدماغ بشكل كبير، وتعمق فهم الآليات العصبية ذات الصلة، وتفتح طرقًا جديدة لتفسير نشاط الدماغ.

* يجمع مستخرج ميزات التصوير بالرنين المغناطيسي الوظيفي القائم على Vision Transformer 3D بين بنية الدماغ ثلاثية الأبعاد والدلالات البصرية ويحاذيها على مستويات متعددة، مما يلغي الحاجة إلى نماذج موضوعية محددة ويستخرج بيانات صالحة في تجربة واحدة فقط، مما يقلل بشكل كبير من تكاليف التدريب ويعزز قابلية الاستخدام في السيناريوهات الواقعية 

* من خلال توسيع بيانات النصوص المرتبطة بصور الرنين المغناطيسي الوظيفي، تم إنشاء نموذج كبير متعدد الوسائط قادر على فك تشفير بيانات الرنين المغناطيسي الوظيفي، والذي لم يحسن أداء فك تشفير الدماغ فحسب، بل وسع أيضًا نطاق تطبيقه، بما في ذلك إعادة البناء البصري، والتفكير المعقد، وتحديد موقع المفهوم، والمهام الأخرى

عنوان الورقة:
https://nips.cc/virtual/2024/poster/93607

اتبع الحساب الرسمي ورد على "فك تشفير إشارات الدماغ" للحصول على ملف PDF كامل

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:

https://github.com/hyperai/awesome-ai4s

مجموعة البيانات: بناءً على مجموعة بيانات المشهد الطبيعي، قم بتقييم موثوقية الاختبار بدقة

تتضمن مجموعات البيانات المستخدمة في التجربة مجموعة بيانات المشاهد الطبيعية (NSD) ومجموعة بيانات COCO.تحتوي مجموعة بيانات NSD على عمليات مسح بالرنين المغناطيسي الوظيفي بدقة 7 تسلا تم جمعها من 8 مشاركين بالغين أصحاء، ولكن في التحليل التجريبي المحدد، قام الباحثون بشكل أساسي بتحليل الأشخاص الأربعة الذين أكملوا جمع البيانات بالكامل.

كما قام الباحثون بمعالجة مجموعة بيانات NSD مسبقًا لإجراء إعادة أخذ العينات الزمنية لتصحيح الاختلافات في توقيت الشريحة، والاستيفاء المكاني لضبط حركة الرأس والتشويه المكاني. على سبيل المثال، قد تتسبب التعديلات مثل الاقتصاص في عدم تطابق بين العنوان الأصلي ومربع تحديد المثيل، كما هو موضح في الشكل أدناه. ولضمان اتساق البيانات، أعاد الباحثون شرح الصور المقصوصة، وأنشأوا 8 تسميات توضيحية لكل صورة باستخدام BLIP2، وأنشأوا مربعات محيطة لهذه الصور باستخدام DETTR.

بعض الأمثلة على الصور من مجموعة بيانات NSD والتسميات التوضيحية المقابلة لها
نظرًا لأن بعض الصور مقتطعة، فهناك عدم تطابق بين التسمية التوضيحية الأصلية ومربع تحديد المثيل.

بالإضافة إلى ذلك، لضمان التوافق بين بيانات التصوير بالرنين المغناطيسي الوظيفي وبيانات التعلم العميق ولتحقيق متابعة التعليمات والتفاعلات المتنوعة، قام الفريق بتوسيع سبعة أنواع من الحوارات عند شرح NSD باستخدام اللغة الطبيعية، وهي: الأوصاف الموجزة، والأوصاف التفصيلية، والحوارات المستمرة، ومهام التفكير المعقدة، وإعادة بناء التعليمات، وتوطين المفهوم.

وأخيرًا، لضمان توحيد البيانات، استخدم الباحثون الاستيفاء الثلاثي الخطوط لضبط البيانات إلى بُعد موحد، وضبطوا تطبيع التصوير بالرنين المغناطيسي الوظيفي على 83 × 104 × 81، وقسموا البيانات إلى 14 × 14 × 14 رقعة بعد تطبيق حشو صفري على الحواف للحفاظ على المعلومات المحلية.

هندسة النموذج: إطار عمل للتكامل متعدد الوسائط يدمج استخراج ميزات التصوير بالرنين المغناطيسي الوظيفي وشهادات الماجستير في القانون

من أجل حل إعادة البناء البصري لنشاط الدماغ والقضاء على مشكلة اندماج بيانات LLM والبيانات متعددة الوسائط، قام فريق البحث بتصميم إطار عمل مبتكر للتكامل متعدد الوسائط يدمج استخراج ميزات التصوير بالرنين المغناطيسي الوظيفي ونموذج لغوي كبير.كما هو موضح في الشكل التالي:

إطار عمل للتكامل متعدد الوسائط يجمع بين استخراج ميزات التصوير بالرنين المغناطيسي الوظيفي ونماذج اللغة الكبيرة

خاصة،يصف الجزء (أ) من الشكل أعلاه مسار التيارين لمحاذاة الميزة باستخدام Variational Autoencoder (VAE) وتضمين CLIP.في الإعداد التجريبي، تم دمج CLIP ViT-L/14 وAutocoderKL كمستخرجين لميزات الصورة، وتم استخدام اثنين من المدركات ثنائية الطبقة fwc وfwv مع أبعاد مخفية تبلغ 1024 للتوافق مع ميزات VAE (zv = Ev) وCLIP (zc = Ec)، على التوالي.

يصف الجزء (ب) من الشكل أعلاه معالج مسبق للتصوير بالرنين المغناطيسي الوظيفي ثلاثي الأبعاد p ومستخرج ميزات التصوير بالرنين المغناطيسي الوظيفي (مستخرج ميزات التصوير بالرنين المغناطيسي الوظيفي).بالنسبة لبيانات التصوير بالرنين المغناطيسي الوظيفي، تم استخدام مشفر تحويل مكون من 16 طبقة بحجم مخفي يبلغ 768 لاستخراج الميزات، وتم استخدام تسمية فئة الطبقة الأخيرة كمخرجات. ثم ارجع إلى الشكل (أ) للمحاذاة لتحقيق إعادة بناء بصرية عالية الجودة.

يوضح الجزء (ج) من الشكل أعلاه LLMs متعددة الوسائط المتكاملة مع التصوير بالرنين المغناطيسي الوظيفي.وهذا يعني أن التفاعل المتعدد الوسائط يتحقق من خلال LLM (التفاعل المتعدد الوسائط عبر LLMs). الغرض الرئيسي هو إدخال الميزات المستخرجة في LLMs لمعالجة تعليمات اللغة الطبيعية وتوليد الاستجابات أو إعادة البناء المرئي. يستخدم هذا الجزء الحالة المخفية قبل الأخيرة للشبكة hᴺᵇ⁻¹ كعلامة متعددة الوسائط لبيانات التصوير بالرنين المغناطيسي الوظيفي، وfₜ عبارة عن مُدرك ثنائي الطبقة، وتمثل "التعليمات" تعليمات اللغة الطبيعية، وتمثل "الإجابة" الاستجابة التي تولدها LLMs.

بعد الضبط الدقيق القائم على التعليمات، يمكن للنموذج التواصل مباشرة من خلال اللغة الطبيعية ودعم إعادة البناء البصري والتعرف على موضع المفاهيم المعبر عنها باللغة الطبيعية، باستخدام UnCLIP لإعادة البناء البصري وGradCAM لتحديد موقع المفهوم، على التوالي. في الشكل، يمثل D UnCLIP المجمد.

النتائج التجريبية: أظهرت ثلاث تجارب رئيسية ومقارنات متعددة أن الإطار الجديد يعمل بشكل جيد في فك تشفير إشارات الدماغ

لتقييم أداء الإطار المقترح، أجرى الباحثون أنواعًا مختلفة من التجارب مثل الترجمة والإجابة على الأسئلة، وإعادة البناء البصري، وتحديد موقع المفهوم، وقارنوها بطرق مختلفة أخرى للتحقق من جدوى وكفاءة الإطار.

كما هو موضح في الشكل أدناه، يظهر الإطار المقترح أداءً ممتازًا في معظم مؤشرات مهمة تسمية الدماغ. علاوة على ذلك، يتمتع الإطار بقدرة تعميم جيدة دون الحاجة إلى تدريب نموذج منفصل لكل موضوع أو إدخال معلمات خاصة بالموضوع.كما قام الباحثون بدمج المهام الخاصة بالوصف التفصيلي والتفكير المعقد، وحقق الإطار أيضًا أداءً متطورًا في هاتين المهمتين، مما يدل على أنه لا يمكنه فقط إنشاء تعليقات بسيطة، بل يمكنه أيضًا تحقيق أوصاف تفصيلية وإجراء تفكير معقد.

التحليل الكمي لترجمة الدماغ والأوصاف التفصيلية ومهام التفكير المعقدة

في تجربة إعادة البناء البصري، كما هو موضح في الشكل أدناه. إن الطريقة المقترحة تعمل بشكل جيد في مطابقة الميزات عالية المستوى، مما يدل على قدرة النموذج على استخدام LLMs بشكل فعال لتفسير البيانات المرئية المعقدة.إن المتانة في التعامل مع مختلف المحفزات البصرية تؤكد الفهم الشامل لبيانات التصوير بالرنين المغناطيسي الوظيفي بالطريقة المقترحة. وتُظهِر التجارب التي لا تحتوي على مكونات أساسية مثل ميزات LLM وVAE انخفاضًا في النتائج، مما يسلط الضوء على أهمية كل عنصر من عناصر النهج المدروس، وهو أمر حاسم لتحقيق نتائج متطورة.

التقييم الكمي لإعادة البناء البصري

بالإضافة إلى ذلك، أجرى الباحثون عملية التحقق من خلال تجربة واحدة، واختاروا استخدام الحافز البصري الأول فقط، على غرار نهج MindEye. وتظهر النتائج أنه حتى في ظل ظروف أكثر صرامة، فإن الطريقة المقترحة لا تظهر سوى تدهور طفيف في الأداء.ويثبت جدواه في التطبيق العملي.

في تجارب تحديد موقع المفهوم، قام الباحثون أولاً بضبط برامج LLM لاستخراج المفاهيم المستهدفة من اللغة الطبيعية، والتي بمجرد ترميزها بواسطة برنامج ترميز النص CLIP، أصبحت أهدافًا لبرنامج GradCAM. لتحسين دقة التوطين، قام الباحثون بتدريب ثلاثة نماذج بأحجام تصحيح مختلفة (14 و12 و10) واستخدموا الطبقة قبل الأخيرة من جميع النماذج لاستخراج الميزات الدلالية. كما هو موضح في الشكل أدناه، يظهر هذاالطريقة المقترحة قادرة على التمييز بين مواقع الدلالات المختلفة في إشارات الدماغ لنفس المحفز البصري.

خريطة حرارية لاختلافات النشاط العصبي لمعلومات دلالية مختلفة لنفس الحافز البصري

وللتحقق من فعالية هذه الطريقة، أجرى الباحثون دراسة استئصالية على المفاهيم الدلالية. بعد تحديد المفاهيم في إشارات الدماغ الأصلية، يتم ضبط الإشارات في وحدات البكسل المحددة إلى صفر، ثم يتم استخدام إشارات الدماغ المعدلة لاستخراج الميزات وإعادة البناء البصري. وكما هو موضح في الشكل أدناه، فإن إزالة النشاط العصبي في مناطق معينة من الدماغ مرتبطة بمفاهيم دلالية معينة سوف يتسبب في تجاهل الدلالات المقابلة في إعادة البناء البصري.وهذا يؤكد صحة النهج المستخدم لتحديد موقع المفاهيم في إشارات الدماغ، ويوضح قدرة الطريقة على استخراج المعلومات الدلالية وتعديلها في نشاط الدماغ، وهو أمر بالغ الأهمية لفهم معالجة المعلومات الدلالية في الدماغ.

التحقق من تحديد موقع المفهوم لإلغاء الإشارة الدلالية وتأثيره على إعادة البناء البصري

بشكل عام، يستفيد إطار عملنا من قوة Vision Transformer 3D مع بيانات التصوير بالرنين المغناطيسي الوظيفي، والتي تم تعزيزها من خلال دمج LLMs، مما يؤدي إلى تحسينات كبيرة في إعادة بناء المحفزات البصرية من إشارات الدماغ وتوفير فهم أكثر دقة وقابلية للتفسير للآليات العصبية الأساسية. يوفر هذا الإنجاز مسارًا بحثيًا جديدًا لفك تشفير وتفسير نشاط الدماغ وله أهمية كبيرة في علم الأعصاب وواجهة الدماغ والحاسوب.

فك شفرة الحقيقة حول كيفية عمل الدماغ البشري واستكشاف أكثر أدوات الطبيعة غموضًا

يُعد الدماغ أهم عضو بيولوجي في جسم الإنسان والأداة الأكثر تطوراً في الطبيعة. يحتوي الدماغ على مئات المليارات من الخلايا العصبية وتريليونات المشابك العصبية المتصلة، والتي تشكل شبكات عصبية ودوائر عصبية تهيمن على وظائف الدماغ المختلفة. ومع التطور المستمر لتكنولوجيا علوم الحياة والذكاء الاصطناعي، أصبحت الحقيقة حول كيفية عمل الدماغ أكثر وضوحًا.

ومن الجدير بالذكر أن معهد الأتمتة التابع للأكاديمية الصينية للعلوم، حيث نُشرت هذه الورقة البحثية، يعد رائداً في تطوير الذكاء الاصطناعي في بلدي، ويجري منذ فترة طويلة أبحاثاً في مجال علوم الدماغ، وخاصة في مجال تشفير وفك تشفير المعلومات البصرية في الدماغ البشري. بالإضافة إلى فريق البروفيسور زينج يي المذكور أعلاه، نشر المعهد العديد من الأوراق رفيعة المستوى المتعلقة بعلم الدماغ، والتي تم تضمينها في المجلات المشهورة دوليًا.

على سبيل المثال، في نهاية عام 2008، تم تضمين نتائج البحث التي نشرها الفريق بقيادة البروفيسور هي هويجوانج من المدرسة، بعنوان "إعادة بناء الصور المتصورة من أنشطة الدماغ البشري باستخدام التعلم العميق متعدد المشاهد البايزي"، في المجلة الدولية الموثوقة IEEE Transactions on Neural Networks and Learning Systems في مجال الشبكات العصبية والتعلم الآلي.

وفي هذه الدراسة، نجح فريق البحث في إثبات العلاقة بين الصور البصرية واستجابات الدماغ بطريقة علمية سليمة.يتم تحويل مشكلة إعادة بناء الصورة المرئية إلى مشكلة استدلال بايزي للآراء المفقودة في نموذج المتغير الكامن متعدد المناظر. لا يوفر هذا البحث أداة قوية لاستكشاف آلية معالجة المعلومات البصرية في الدماغ فحسب، بل يلعب أيضًا دورًا معينًا في تعزيز تطوير واجهات الدماغ والحاسوب والذكاء الشبيه بالدماغ.

بالإضافة إلى معهد الأتمتة التابع للأكاديمية الصينية للعلوم، يستخدم فريق بحثي من الجامعة الوطنية في سنغافورة أيضًا التصوير بالرنين المغناطيسي الوظيفي لتسجيل الصور التي يراها الأشخاص ثم استخدام خوارزميات التعلم الآلي لاستعادتها إلى صور. وقد تم نشر النتائج ذات الصلة على arXiv تحت عنوان "الرؤية وراء الدماغ: نموذج الانتشار الشرطي مع النمذجة المقنعة المتفرقة لفك تشفير الرؤية".

وبالإضافة إلى ذلك، تسارع العديد من الشركات التجارية أيضاً إلى استكشاف "عالم الدماغ".ولم يمض وقت طويل قبل أن يشارك إيلون ماسك أيضًا أفكاره حول شركته Neuralink المتخصصة في واجهة الدماغ والحاسوب وتكنولوجيا واجهة الدماغ والحاسوب في مؤتمر جراحي الأعصاب لعام 2024.واقترح البعض أيضًا أن تكلفة واجهات الدماغ والحاسوب لا ينبغي أن تكون مرتفعة للغاية.

باختصار، يمكن القول إن تكنولوجيا فك تشفير الدماغ هي عملية مستمرة وسريعة التطور. سواء تم الترويج لها من قبل مؤسسات البحث العلمي أو الشركات التجارية، فإنها تركب على الرياح الشرقية للذكاء الاصطناعي والتعلم الآلي لتسريع وصول عصر الدماغ الذكي بشكل مستمر. ومن الجدير بالتصديق أيضًا أن التقدم العلمي سوف ينعكس حتماً في التطبيقات، مثل تطوير واجهات الدماغ والحاسوب، واستخدام الآلات لإفادة المرضى الذين يعانون من تلف في الجهاز العصبي، وما إلى ذلك.