스파이킹-디퓨전: 스파이킹 신경망을 활용한 벡터 양자화된 이산 디퓨전 모델

스파이킹 신경망(Spiking Neural Networks, SNNs)은 이진 및 이벤트 기반 아키텍처 덕분에 에너지 효율적인 뉴모르픽 칩 분야에서 큰 잠재력을 지닌다. 기존에 SNNs는 주로 분류 작업에 활용되어 왔으나, 이미지 생성 작업에 대한 탐색은 제한적이었다. 이러한 격차를 메우기 위해, 우리는 벡터 양자화된 이산 확산 모델 기반의 스파이킹-확산(Spiking-Diffusion) 모델을 제안한다. 먼저, 이미지에 대한 이산 잠재 공간을 학습하기 위해 SNN을 활용한 벡터 양자화 변분 오토인코더(VQ-SVAE)를 개발한다. VQ-SVAE에서는 이미지 특징을 스파이크 발생 빈도와 후극전위(post-synaptic potential)를 함께 사용해 인코딩하며, 임베딩 특징을 스파이크 트레인 형태로 복원하기 위해 적응형 스파이크 생성기를 설계한다. 이후, 이산 잠재 공간에서 흡수 상태 확산(absorbing state diffusion)을 수행하고, SNN을 활용한 스파이킹 확산 이미지 디코더(Spiking Diffusion Image Decoder, SDID)를 구성하여 이미지 노이즈를 제거한다. 본 연구는 처음으로 SNN 계층만으로 구성된 완전한 확산 모델을 구축한 사례이다. MNIST, FMNIST, KMNIST, Letters, Cifar10 데이터셋에서의 실험 결과를 통해, Spiking-Diffusion 모델이 기존의 SNN 기반 생성 모델보다 우수한 성능을 보였다. 각 데이터셋에서 FID(Fréchet Inception Distance)는 각각 37.50, 91.98, 59.23, 67.41, 120.5를 기록하였으며, 최신 기술 대비 각각 58.60%, 18.75%, 64.51%, 29.75%, 44.88%의 FID 감소를 달성하였다. 본 연구의 코드는 \url{https://github.com/Arktis2022/Spiking-Diffusion}에서 공개될 예정이다.