HyperAI초신경

NeurIPS 2024에 선정되었습니다! 중국과학원 연구팀은 비침습적 뇌 디코딩을 위한 새로운 프레임워크를 제안하여 뇌-컴퓨터 인터페이스 및 인지 모델 개발의 기반을 마련했습니다.

特色图像

여러분이 보고, 생각하고, 심지어 꿈꾸는 이미지를 시각화할 수 있나요? 이것은 단순한 상상이 아닙니다. 2008년 초, 캘리포니아 대학교 버클리의 신경과학자 잭 갤런트는 네이처에 자신의 가설을 제안했습니다. 그들은 비침습적 뇌 기능 영상 기술인 기능적 자기공명영상(fMRI)을 사용하여 피험자의 시각 피질 활동을 "읽어낸" 다음 시각적 재구성을 통해 피험자가 본 이미지를 시각화했습니다.이는 전 세계 과학자들에게 뇌의 비밀을 밝혀내라는 경고의 신호였습니다.

fMRI로 대표되는 비침습적 뇌 디코딩 기술은 침습적 뇌 디코딩 기술에 비해 더 간단하고 안전한 방식으로 뇌 디코딩을 구현하기 때문에 높은 평가를 받고 있습니다. 이는 인지 신경 과학 연구, 뇌-컴퓨터 인터페이스 응용 프로그램, 임상 의료 진단 등 많은 분야에서 큰 잠재적 응용 가치를 가지고 있습니다.

그러나 뇌 신호의 비침습적 디코딩은 개인차와 신경 신호 표현의 복잡성으로 인해 방해를 받으며, 뇌 디코딩 과정에서 여전히 핵심 과제로 남아 있습니다.한편, 전통적인 방법은 맞춤형 모델과 많은 수의 값비싼 실험에 의존합니다. 반면, 정확한 의미론과 해석 가능성이 부족하기 때문에 기존 방법으로는 시각 재구성 작업에서 개인의 시각적 경험을 정확하게 재현하기 어렵습니다.

이에 대응하여 중국과학원 자동화연구소의 증이 교수 연구팀은 fMRI 기능 추출기와 대규모 언어 모델을 결합한 다중 모드 통합 프레임워크를 혁신적으로 설계하여 뇌 활동의 시각적 재구성 문제를 해결했습니다..연구진은 Vision Transformer 3D(ViT3D)를 사용하여 3D 뇌 구조와 시각적 의미론을 결합하고, 효율적인 통합 기능 추출기를 통해 fMRI 기능을 다중 레벨 시각적 임베딩과 정렬하고, 특정 모델이 필요 없이 단일 실험 데이터에서 정보를 추출했습니다. 또한 추출기는 다중 레벨 시각적 특징을 통합하여 대규모 언어 모델(LLM)과의 통합을 간소화하고, fMRI 데이터 세트와 fMRI 이미지와 관련된 텍스트 데이터를 증강하여 다중 모드 대규모 모델을 개발할 수 있습니다.

"신경 시각에서 언어로: 뇌 기록 기반 시각 재구성 및 언어 상호작용 향상"이라는 제목의 연구 결과가 NeurIPS 2024에 수락되었습니다.

연구 하이라이트:

* 본 연구는 뇌 신호를 통해 시각 자극을 재구성하는 능력을 크게 향상시키고 관련 신경 메커니즘에 대한 이해를 심화시키며 뇌 활동을 해석하는 새로운 방법을 제시합니다.

* Vision Transformer 3D 기반 fMRI 기능 추출기는 3D 뇌 구조와 시각적 의미론을 결합하여 여러 레벨로 정렬함으로써 특정 주제 모델이 필요 없게 하고 단 한 번의 실험으로 유효한 데이터를 추출하여 훈련 비용을 크게 절감하고 실제 시나리오에서 사용성을 향상시킵니다. 

* fMRI 영상 관련 텍스트 데이터를 확장하여 fMRI 데이터를 디코딩할 수 있는 다중모달 대형 모델을 구축함으로써 뇌 디코딩 성능을 향상시킬 뿐만 아니라 시각 재구성, 복합 추론, 개념 국소화 등의 작업으로 응용 범위를 확대했다.

서류 주소:
https://nips.cc/virtual/2024/poster/93607

공식 계정을 팔로우하고 "뇌 신호 디코딩"에 답글을 달면 전체 PDF를 받을 수 있습니다.

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 자연 장면 데이터 세트를 기반으로 테스트 신뢰도를 엄격하게 평가합니다.

실험에 사용된 데이터 세트에는 NSD(Natural Scenes Dataset) 데이터 세트와 COCO 데이터 세트가 포함됩니다.NSD 데이터 세트에는 건강한 성인 참가자 8명으로부터 수집한 고해상도 7 테슬라 fMRI 스캔이 포함되어 있지만, 특정 실험 분석에서 연구자들은 주로 모든 데이터 수집을 완료한 4명의 피험자를 분석했습니다.

연구진은 또한 슬라이스 타이밍 차이를 보정하기 위한 시간적 리샘플링과 머리 움직임과 공간적 왜곡을 조정하기 위한 공간 보간을 수행하기 위해 NSD 데이터 세트를 사전 처리했습니다. 예를 들어, 자르기 등의 수정으로 인해 아래 그림과 같이 원래 제목과 인스턴스 경계 상자 사이에 불일치가 발생할 수 있습니다. 데이터 일관성을 보장하기 위해 연구진은 잘라낸 이미지에 다시 주석을 달고, BLIP2를 사용하여 각 이미지에 대한 캡션 8개를 생성하고, DETTR을 사용하여 이러한 이미지에 대한 경계 상자를 생성했습니다.

NSD 데이터 세트의 이미지와 해당 캡션의 몇 가지 예
일부 이미지가 잘려나가면서 원래 캡션과 인스턴스 경계 상자 사이에 불일치가 발생합니다.

또한, fMRI 데이터와 LLM 간의 호환성을 보장하고 지시 따르기 및 다양한 상호작용을 달성하기 위해 연구팀은 자연어를 사용하여 NSD에 주석을 달 때 간략한 설명, 자세한 설명, 연속 대화, 복잡한 추론 과제, 지시 재구성, 개념 현지화 등 7가지 유형의 대화를 확장했습니다.

마지막으로, 연구진은 데이터의 표준화를 보장하기 위해 삼선형 보간법을 사용하여 데이터를 균일한 차원으로 조정하고, fMRI 정규화를 83×104×81로 설정하고, 로컬 정보를 보존하기 위해 에지에 제로 패딩을 적용한 후 데이터를 14×14×14 패치로 나누었습니다.

모델 아키텍처: fMRI 기능 추출과 LLM을 통합하는 다중 모드 통합 프레임워크

연구팀은 뇌 활동의 시각적 재구성 문제를 해결하고 LLM과 다중 모달 데이터의 융합 문제를 해결하기 위해 fMRI 특징 추출과 대규모 언어 모델을 통합하는 다중 모달 통합 프레임워크를 혁신적으로 설계했습니다.다음 그림과 같이:

fMRI 기능 추출과 대규모 언어 모델을 결합한 다중 모드 통합 프레임워크

구체적으로,위 그림의 (a) 부분은 VAE(Variational Autoencoder)와 CLIP 임베딩을 사용하여 기능 정렬을 위한 두 스트림 경로를 설명합니다.실험 설정에서 CLIP ViT-L/14와 AutocoderKL은 이미지 특징 추출기로 통합되었으며, 1024의 은닉 차원을 갖는 두 개의 2층 퍼셉트론 fwc와 fwv는 각각 VAE(zv = Ev) 및 CLIP(zc = Ec) 특징에 맞춰 정렬하는 데 사용되었습니다.

위 그림의 (b) 부분은 3D fMRI 전처리기 p와 fMRI 특징 추출기(fMR1 특징 추출기)를 설명합니다.fMRI 데이터의 경우, 768의 은닉 크기를 갖는 16층 변환 인코더를 사용하여 특징을 추출하고, 마지막 층의 클래스 레이블을 출력으로 사용했습니다. 그런 다음 고품질 시각적 재구성을 달성하기 위해 정렬을 위해 그림 (a)로 돌아갑니다.

위 그림의 (c) 부분은 fMRI와 통합된 다중 모드 LLM을 나타냅니다.즉, 다중 모드 상호작용은 LLM(LLM을 통한 다중 모드 상호작용)을 통해 달성됩니다. 주된 목적은 추출된 특징을 LLM에 입력하여 자연어 명령을 처리하고 응답이나 시각적 재구성을 생성하는 것입니다. 이 부분에서는 네트워크 hᴺᵇ⁻¹의 마지막에서 두 번째 숨겨진 상태를 fMRI 데이터의 다중 모드 마커로 사용하고, fₜ는 2층 퍼셉트론이고, "지침"은 자연어 지침을 나타내고, "답변"은 LLM에서 생성된 응답을 나타냅니다.

지침 기반 미세 조정을 거친 후, 모델은 자연어를 통해 직접 소통하고 자연어로 표현된 개념의 시각적 재구성과 위치 인식을 지원할 수 있으며, 시각적 재구성에는 UnCLIP을, 개념 현지화에는 GradCAM을 각각 사용합니다. 그림에서 D는 동결된 UnCLIP을 나타냅니다.

실험 결과: 세 가지 주요 실험과 다중 비교를 통해 새로운 프레임워크가 뇌 신호 디코딩에 우수한 성능을 보인다는 것이 밝혀졌습니다.

연구자들은 제안된 프레임워크의 성능을 평가하기 위해 캡션 및 질의응답, 시각적 재구성, 개념 현지화와 같은 다양한 유형의 실험을 수행했으며, 프레임워크의 실행 가능성과 효율성을 검증하기 위해 이를 다른 방법들과 비교했습니다.

아래 그림에서 볼 수 있듯이, 제안된 프레임워크는 뇌 캡션 작업의 대부분 지표에서 뛰어난 성능을 보여줍니다. 더욱이 이 프레임워크는 각 과목에 대해 별도의 모델을 학습시키거나 과목별 매개변수를 도입하지 않고도 일반화 능력이 뛰어납니다.연구자들은 또한 세부적인 설명과 복잡한 추론을 위한 작업을 결합했고, 이 프레임워크는 두 작업에서 최첨단 성능을 달성하여 간단한 캡션을 생성할 수 있을 뿐만 아니라 세부적인 설명을 달성하고 복잡한 추론을 수행할 수 있음을 보여주었습니다.

뇌 캡션, 세부 설명 및 복잡한 추론 과제의 정량적 분석

시각적 재구성 실험에서는 아래 그림과 같이 나타납니다. 제안된 방법은 고수준 기능 매칭에서 좋은 성과를 보이며, 모델이 LLM을 효과적으로 활용하여 복잡한 시각 데이터를 해석할 수 있는 능력을 보여줍니다.다양한 시각적 자극에 대한 견고성은 제안된 방법이 fMRI 데이터에 대한 포괄적인 이해를 확인시켜 줍니다. LLM 및 VAE 기능과 같은 핵심 요소가 없는 실험은 점수가 떨어지는데, 이는 최첨단 결과를 얻는 데 중요한 연구된 접근 방식의 각 요소의 중요성을 강조합니다.

시각 재구성의 정량적 평가

또한 연구자들은 MindEye 접근 방식과 유사하게 첫 번째 시각적 자극만을 사용하기로 선택하여 단일 시행 검증을 수행했습니다. 결과에 따르면, 더 엄격한 조건에서도 제안된 방법은 성능이 약간만 저하되는 것으로 나타났습니다.이는 실제 적용에서 실현 가능성을 입증합니다.

개념 현지화 실험에서 연구자들은 먼저 LLM을 미세 조정하여 자연어에서 대상 개념을 추출했습니다. 이 개념이 CLIP 텍스트 인코더로 인코딩되면 GradCAM의 대상이 됩니다. 현지화 정확도를 높이기 위해 연구진은 서로 다른 패치 크기(14, 12, 10)로 세 가지 모델을 훈련하고 모든 모델의 마지막에서 두 번째 계층을 사용하여 의미적 특징을 추출했습니다. 아래 그림에서 보여지는 바와 같이,제안된 방법은 동일한 시각적 자극에 대한 뇌 신호에서 다양한 의미의 위치를 구별할 수 있다.

동일한 시각 자극에 대한 다양한 의미 정보에 대한 신경 활동 차이의 열 지도

이 방법의 효과를 검증하기 위해 연구자들은 의미 개념에 대한 절제 연구를 수행했습니다. 원래 뇌 신호의 개념을 현지화한 후, 식별된 폭셀의 신호를 0으로 설정하고, 수정된 뇌 신호를 사용하여 특징 추출 및 시각적 재구성을 수행합니다. 아래 그림에서 보듯이, 특정 의미 개념과 관련된 특정 뇌 영역의 신경 활동을 제거하면 시각적 재구성에서 해당 의미가 무시됩니다.이는 뇌 신호에서 개념 국소화를 위한 접근 방식의 타당성을 확인하고 뇌 활동에서 의미 정보를 추출하고 수정하는 방법의 능력을 보여주는데, 이는 뇌의 의미 정보 처리를 이해하는 데 중요합니다.

의미 신호 무효화의 개념 현지화 검증 및 시각적 재구성에 미치는 영향

전반적으로, 우리의 프레임워크는 LLM을 통합하여 강화된 fMRI 데이터를 활용한 Vision Transformer 3D의 힘을 활용하여 뇌 신호에서 시각적 자극을 재구성하는 데 상당한 개선을 가져오고, 근본적인 신경 메커니즘에 대한 보다 정확하고 해석 가능한 이해를 제공합니다. 이번 성과는 뇌 활동을 디코딩하고 해석하는 새로운 연구 경로를 제공했으며, 신경과학과 뇌-컴퓨터 인터페이스 분야에 매우 중요한 의미를 갖습니다.

인간의 뇌가 작동하는 방식에 대한 진실을 해독하고 자연에서 가장 신비로운 도구를 탐구합니다.

뇌는 인간에게 가장 중요한 생물학적 기관이며, 자연에서 가장 정교한 도구입니다. 뇌에는 수천억 개의 신경 세포와 수조 개의 연결된 시냅스가 있으며, 다양한 뇌 기능을 지배하는 신경망과 신경 회로를 형성합니다. 그리고 생명과학 기술과 인공지능의 지속적인 발전으로 뇌가 작동하는 방식에 대한 진실은 점점 더 명확해지고 있습니다.

이 논문이 발표된 중국과학원 자동화연구소는 우리나라 인공지능 개발의 선두주자이며, 오랫동안 뇌과학 분야, 특히 인간 뇌의 시각 정보 인코딩 및 디코딩에 대한 연구를 진행해 왔다는 점을 언급할 가치가 있습니다. 위에 언급한 Zeng Yi 교수 팀 외에도 본 연구소는 뇌 과학과 관련된 많은 높은 수준의 논문을 발표하였으며, 이러한 논문들은 국제적으로 저명한 학술지에 게재되었습니다.

예를 들어, 2008년 말, 본교의 허휘광 교수가 이끄는 팀이 발표한 "베이지안 딥 멀티뷰 학습을 통한 인간 뇌 활동으로부터 인지된 이미지 재구성"이라는 제목의 연구 결과는 신경망 및 머신 러닝 분야의 국제 권위 저널인 IEEE 신경망 및 학습 시스템 저널에 게재되었습니다.

이 연구에서 연구팀은 과학적으로 타당한 방식으로 시각적 이미지와 뇌 반응 사이의 관계를 확립했습니다.시각적 이미지 재구성 문제는 다중 뷰 잠재 변수 모델에서 누락된 뷰의 베이지안 추론 문제로 변환됩니다. 이 연구는 뇌의 시각 정보 처리 메커니즘을 탐구하는 강력한 도구를 제공할 뿐만 아니라, 뇌-컴퓨터 인터페이스와 뇌 유사 지능의 개발을 촉진하는 데에도 일정한 역할을 합니다.

중국과학원 산하 자동화 연구소 외에도 싱가포르 국립대학의 연구팀은 fMRI를 사용하여 피험자가 본 이미지를 기록한 다음 머신 러닝 알고리즘을 사용하여 이를 이미지로 복원하고 있습니다. 관련 결과는 "뇌 너머를 보는 것: 시각 디코딩을 위한 희소 마스크 모델링을 사용한 조건부 확산 모델"이라는 제목으로 arXiv에 게재되었습니다.

이에 더해 많은 상업 회사들도 '두뇌 세계'를 탐험하는 데 앞장서고 있다.얼마 전, 일론 머스크도 2024년 신경외과 컨퍼런스에서 자신의 뇌-컴퓨터 인터페이스 회사인 뉴럴링크와 뇌-컴퓨터 인터페이스 기술에 대한 통찰력을 공유했습니다.일부 사람들은 뇌-컴퓨터 인터페이스 비용이 너무 높아서는 안 된다고 주장하기도 했습니다.

간단히 말해서, 뇌 디코딩 기술은 지속적이고 빠르게 발전하는 과정이라고 할 수 있습니다. 과학 연구 기관이나 상업 회사가 추진하는 것은 모두 인공지능과 머신러닝의 동풍을 타고 지능형 두뇌 시대의 도래를 끊임없이 앞당기고 있습니다. 과학적 진보는 뇌-컴퓨터 인터페이스의 개발, 신경계가 손상된 환자에게 도움이 되는 기계의 활용 등과 같은 응용 분야에 필연적으로 반영될 것이라고 믿는 것도 가치가 있습니다.