활동 희소성과 시간을 통한 희소 역전파를 활용한 효율적인 순환 구조

순환 신경망(RNNs)은 표현력과 낮은 계산 요구 사항 덕분에 자원 제약이 있는 시스템에서 순차적 작업을 해결하기에 적합합니다. 그러나 RNN의 효율성과 성능 측면에서 실제 응용 요구 사항과의 간극을 메우는 것이 여전히 필요합니다. 모든 시간 단계에서 모든 뉴런의 활성화를 모든 연결된 뉴런으로 전파하는 것에서 발생하는 메모리와 계산 요구 사항, 그리고 활성화의 순차적 의존성이 RNN 학습 및 사용의 비효율성을 초래합니다. 우리는 생물학적 뉴런 역학에서 영감을 얻어 RNN 유닛 간의 통신을 희소하고 이산적으로 만드는 솔루션을 제안합니다. 이 방법은 시간 역전 전파(BPTT)의 역방향 경로도 계산적으로 희소하고 효율적이게 만듭니다. 우리의 모델은 게이트 순환 유닛(GRU)을 기반으로 하며, 이벤트가 발생할 때만 정보를 다른 유닛에게 전달하도록 임계값에 의해 트리거되는 이산 이벤트를 방출하는 유닛을 확장하여 구현됩니다. 우리는 이론적으로 유닛 간의 통신, 그리고 따라서 정방향 및 역방향 경로 모두에 필요한 계산량이 네트워크 내 이벤트 수와 비례함을 보여줍니다. 우리의 모델은 작업 성능을 저하시키지 않으면서 효율성을 달성하며, 언어 모델링 등을 포함한 실제 작업에서 최신 순환 네트워크 모델들과 비교해 경쟁력을 갖는 성능을 입증하였습니다. 동적인 활동 희소성 메커니즘은 또한 우리의 모델이 새로운 에너지 효율적인 뉴로모픽 하드웨어에 적합하게 만듭니다. 코드는 https://github.com/KhaleelKhan/EvNN/ 에서 제공됩니다.