スパーキング・ディフュージョン:スパーキングニューラルネットワークを用いたベクタ量子化済み離散型ディフュージョンモデル

スパイキングニューラルネットワーク(SNN)は、バイナリ且つイベント駆動型のアーキテクチャを持つことから、エネルギー効率の高いニューロモルフィックチップにおける大きな潜在能力を有しています。これまでSNNは主に分類タスクに用いられてきましたが、画像生成タスクにおける研究は限定的でした。このギャップを埋めるために、本研究ではベクトル量子化離散拡散モデルに基づく「Spiking-Diffusion」モデルを提案します。まず、画像の離散潜在空間を学習するため、SNNを用いたベクトル量子化変分オートエンコーダ(VQ-SVAE)を構築しました。VQ-SVAEでは、画像特徴がスパイク発火頻度とシナプス後電位の両方を用いて符号化され、埋め込み特徴をスパイク列の形で再構成するための適応型スパイク生成器が設計されています。次に、離散潜在空間上で吸収状態拡散(absorbing state diffusion)を実行し、SNNを用いたスパイキング拡散画像デコーダ(SDID)を構築して、ノイズ除去を実現しました。本研究は、完全にSNN層から構成された拡散モデルを初めて構築したものです。MNIST、FMNIST、KMNIST、Letters、Cifar10の各データセットにおける実験結果から、Spiking-Diffusionが既存のSNNベースの生成モデルを上回ることを示しました。各データセットにおけるFIDスコアは、それぞれ37.50、91.98、59.23、67.41、120.5となり、最新の研究と比較してFID値をそれぞれ58.60%、18.75%、64.51%、29.75%、44.88%低減しました。本研究のコードは、\url{https://github.com/Arktis2022/Spiking-Diffusion}にて公開される予定です。