Command Palette

Search for a command to run...

12일 전

언어 모델은 단사적이며 따라서 역함수를 가진다

Giorgos Nikolaou Tommaso Mencattini Donato Crisostomi Andrea Santilli Yannis Panagakis Emanuele Rodola'

초록

트랜스포머의 구성 요소인 비선형 활성화 함수와 정규화는 본질적으로 일대일 사상(인젝티브, injective)이 아니며, 이는 서로 다른 입력이 동일한 출력으로 매핑될 수 있음을 시사하고, 모델의 표현으로부터 입력을 정확히 복원하는 것을 방해할 수 있다. 본 논문에서는 이러한 견해에 도전한다. 첫째, 수학적으로 트랜스포머 기반 언어 모델이 이산 입력 시퀀스를 연속적 표현 시퀀스로 매핑하는 과정이 일대일 사상임을 입증한다. 즉, 정보 손실이 없는 속성(로스리스, lossless)이 초기화 시점에 이미 확립되며, 훈련 과정에서도 유지됨을 보인다. 둘째, 여섯 개의 최신 언어 모델을 대상으로 수십억 개의 충돌 테스트를 실시하여 이 결과를 실험적으로 확인하였으며, 충돌 사례는 하나도 관찰되지 않았다. 셋째, 일대일 사상의 실용화를 가능하게 하였다. 본 연구는 히든 활성화값으로부터 정확한 입력 텍스트를 재구성할 수 있는, 처음으로 수학적으로 보장되며 효율적인 알고리즘인 SipIt을 제안한다. 이 알고리즘은 선형 시간 보장(linear-time guarantees)을 제공하며, 실질적으로 정확한 역전환 가능성(invertibility)을 입증한다. 종합적으로, 본 연구는 일대일 사상이 언어 모델의 핵심적이고 활용 가능한 성질임을 입증하였으며, 모델의 투명성, 해석 가능성, 안전한 배포에 직접적인 함의를 지닌다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp