17일 전

안드라 반더스나치: 병렬 현실을 예측하기 위해 신경망 훈련하기

Venkata Satya Sai Ajay Daliparthi
안드라 반더스나치: 병렬 현실을 예측하기 위해 신경망 훈련하기
초록

다수의 세계 해석(MWI)에 영감을 받아, 본 연구는 각 층에서 동일한 입력 신호를 병렬 브랜치로 분할하는 새로운 신경망 아키텍처를 제안한다. 이 아키텍처는 하이퍼 리크티피드 활성화(Hyper Rectified Activation)를 사용하며, 이를 ANDHRA라고 명명한다. 분기된 층들은 다시 합쳐지지 않고 독립적인 네트워크 경로를 형성하며, 출력 예측을 위한 다수의 네트워크 헤드를 생성한다. 분기 계수(branching factor)가 2이고, 총 3단계에 걸쳐 분기하는 경우, 전체 헤드 수는 2³ = 8개가 된다. 개별 헤드들은 각각의 손실 값을 결합하여 공동으로 학습된다. 그러나 제안된 아키텍처는 추가적인 브랜치로 인해 학습 시 추가적인 파라미터와 메모리가 요구된다. 반면, 추론 단계에서 CIFAR-10/100에 대한 실험 결과는, 기준 모델과 동일한 파라미터 수와 계산 비용을 갖되, 개별 헤드 중 하나가 기준 정확도를 초과하며 통계적으로 유의미한 성능 향상을 달성함을 보여준다.