HyperAI초신경
10일 전

에너지 기반 트랜스포머는 확장 가능한 학습자이자 사고자입니다.

Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Peixuan Han, Hyeonjeong Ha, Aman Chadha, Yilun Du, Heng Ji, Jundong Li, Tariq Iqbal
에너지 기반 트랜스포머는 확장 가능한 학습자이자 사고자입니다.
초록

추론 시 컴퓨테이션 기술은 인간의 시스템 2 사고와 유사하여 최근 모델 성능 향상을 위해 인기를 끌고 있습니다. 그러나 대부분의 기존 접근 방식은 여러 제한점을 가지고 있습니다: 특정 모달리티에 국한되어 있는 경우(예: 텍스트만 처리), 특정 문제에 국한되어 있는 경우(예: 수학과 코딩처럼 검증 가능한 영역), 또는 비지도 학습 후 추가적인 감독/훈련을 필요로 하는 경우(예: 검증자나 검증 가능한 보상). 본 논문에서는 이러한 시스템 2 사고 접근 방식을 일반화하고, 오직 비지도 학습을 통해 사고를 배우는 모델을 개발할 수 있는지 질문합니다. 흥미롭게도, 입력과 후보 예측 간의 호환성을 명시적으로 검증하고 이를 통해 예측 문제를 최적화 문제로 재구성함으로써 이 질문에 대한 답이 '예'라는 것을 발견했습니다. 구체적으로, 우리는 에너지 기반 트랜스포머(Energy-Based Transformers, EBTs) -- 새로운 에너지 기반 모델(Energy-Based Models, EBMs) 클래스 --을 훈련시켜 모든 입력과 후보 예측 쌍에 에너지 값을 할당하도록 하였습니다. 이는 그래디언트 디센트 기반의 에너지 최소화 과정을 통해 예측을 수행할 수 있게 합니다. 훈련 중에는 이산(텍스트) 및 연속(시각적) 모달리티 모두에서 EBTs가 주류인 트랜스포머++보다 더 빠르게 확장되며, 데이터, 배치 크기, 매개변수, FLOPs 및 깊이 측면에서 최대 35% 더 높은 확장률을 달성하였습니다. 추론 시에는 EBTs가 언어 작업에서 트랜스포머++보다 시스템 2 사고를 통해 29% 더 나은 성능을 보여주었으며, 이미지 노이즈 제거 작업에서는 더 적은 순방향 패스를 사용하면서 디퓨전 트랜스포머(Diffusion Transformers)보다 우수한 결과를 얻었습니다. 또한, 동일하거나 더 나쁜事前训练性能的情况下,我们发现EBTs在大多数下游任务中仍能取得比现有模型更好的结果,这表明EBTs比现有方法具有更好的泛化能力。因此,EBTs为同时扩展模型的学习和思考能力提供了一个有前景的新范式。注:最后一句中的“事前训练性能”应为“事前训练表现”,这是翻译时的一个小错误。正确的翻译如下:추론 시에는 EBTs가 언어 작업에서 트랜스포머++보다 시스템 2 사고를 통해 29% 더 나은 성능을 보여주었으며, 이미지 노이즈 제거 작업에서는 더 적은 순방향 패스를 사용하면서 디퓨전 트랜스포머(Diffusion Transformers)보다 우수한 결과를 얻었습니다. 또한, 동일하거나 더 나쁜 사전 훈련 성능의 경우에도 EBTs는 대부분의 다운스트림 작업에서 기존 모델보다 더 좋은 결과를 달성하였으며, 이는 EBTs가 기존 방법보다 더 잘 일반화된다는 것을 나타냅니다. 따라서, EBTs는 모델의 학습 및 사고 능력을 동시에 확장하는 새로운 전망입니다.