HyperAIHyperAI

Command Palette

Search for a command to run...

모든 것은 연결되어 있다: 테스트 시간 기억화, 주의 집중 편향, 유지, 온라인 최적화를 아우르는 여정

Ali Behrouz Meisam Razaviyayn Peilin Zhong Vahab Mirrokni

초록

기초 모델의 성능을 향상시키기 위한 연구의 핵심은 효율적이고 효과적인 아키텍처 백본을 설계하는 데 있다. 인간 인지 현상 중 주의 집중 편향(특정 사건이나 자극을 우선적으로 처리하는 자연스러운 경향성)에 영감을 받아, 트랜스포머(Transformer), 타이탄(Titan), 그리고 현대의 선형 순환 신경망 등 다양한 신경망 아키텍처를 내부 목적(즉, 주의 집중 편향이라 불리는)을 통해 키(key)와 값(value) 간의 매핑을 학습하는 연상 기억 모듈로 재정의한다. 놀랍게도, 기존의 대부분의 시퀀스 모델이 주의 집중 편향으로서 (1) 내적 곱 유사도(dot-product similarity) 또는 (2) L2 회귀 목적함수를 사용하고 있음을 관찰하였다. 이러한 목적함수를 넘어서, 우리는 학습 과정의 안정성을 높이기 위한 대안적인 주의 집중 편향 구성과 그 효과적인 근사 방법을 제안한다. 또한, 현대 딥러닝 아키텍처에서의 망각 메커니즘을 유지 정규화(retention regularization)의 한 형태로 재해석함으로써, 시퀀스 모델을 위한 새로운 형태의 망각 게이트(forget gate)를 제시한다. 이러한 통찰을 바탕으로, (i) 연상 기억 아키텍처, (ii) 주의 집중 편향 목적함수, (iii) 유지 게이트(retention gate), (iv) 메모리 학습 알고리즘의 네 가지 선택지를 기반으로 하는 일반적인 딥러닝 아키텍처 설계 프레임워크인 Miras를 제안한다. 우리는 기존의 선형 RNN보다 더 뛰어난 성능을 보이면서도 병렬화가 가능한 빠른 학습 과정을 유지하는 세 가지 새로운 시퀀스 모델 — Moneta, Yaad, Memora — 를 제시한다. 실험 결과, Miras 내의 다양한 설계 선택지가 각기 다른 강점을 지닌 모델을 생성함을 확인하였다. 예를 들어, 특정 Miras 구현은 언어 모델링, 일반적 지식 추론, 기억 집약적 작업과 같은 특수한 과제에서 뛰어난 성능을 발휘하며, 트랜스포머 및 기타 현대의 선형 순환 모델을 능가하기도 한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
모든 것은 연결되어 있다: 테스트 시간 기억화, 주의 집중 편향, 유지, 온라인 최적화를 아우르는 여정 | 문서 | HyperAI초신경