에너지 기반 트랜스포머는 확장 가능한 학습자이자 사고자입니다.

추론 시 컴퓨테이션 기술은 인간의 시스템 2 사고와 유사하여 최근 모델 성능 향상을 위해 인기를 끌고 있습니다. 그러나 대부분의 기존 접근 방식은 여러 제한점을 가지고 있습니다: 특정 모달리티에 국한되어 있는 경우(예: 텍스트만 처리), 특정 문제에 국한되어 있는 경우(예: 수학과 코딩처럼 검증 가능한 영역), 또는 비지도 학습 후 추가적인 감독/훈련을 필요로 하는 경우(예: 검증자나 검증 가능한 보상). 본 논문에서는 이러한 시스템 2 사고 접근 방식을 일반화하고, 오직 비지도 학습을 통해 사고를 배우는 모델을 개발할 수 있는지 질문합니다. 흥미롭게도, 입력과 후보 예측 간의 호환성을 명시적으로 검증하고 이를 통해 예측 문제를 최적화 문제로 재구성함으로써 이 질문에 대한 답이 '예'라는 것을 발견했습니다. 구체적으로, 우리는 에너지 기반 트랜스포머(Energy-Based Transformers, EBTs) -- 새로운 에너지 기반 모델(Energy-Based Models, EBMs) 클래스 --을 훈련시켜 모든 입력과 후보 예측 쌍에 에너지 값을 할당하도록 하였습니다. 이는 그래디언트 디센트 기반의 에너지 최소화 과정을 통해 예측을 수행할 수 있게 합니다. 훈련 중에는 이산(텍스트) 및 연속(시각적) 모달리티 모두에서 EBTs가 주류인 트랜스포머++보다 더 빠르게 확장되며, 데이터, 배치 크기, 매개변수, FLOPs 및 깊이 측면에서 최대 35% 더 높은 확장률을 달성하였습니다. 추론 시에는 EBTs가 언어 작업에서 트랜스포머++보다 시스템 2 사고를 통해 29% 더 나은 성능을 보여주었으며, 이미지 노이즈 제거 작업에서는 더 적은 순방향 패스를 사용하면서 디퓨전 트랜스포머(Diffusion Transformers)보다 우수한 결과를 얻었습니다. 또한, 동일하거나 더 나쁜事前训练性能的情况下,我们发现EBTs在大多数下游任务中仍能取得比现有模型更好的结果,这表明EBTs比现有方法具有更好的泛化能力。因此,EBTs为同时扩展模型的学习和思考能力提供了一个有前景的新范式。注:最后一句中的“事前训练性能”应为“事前训练表现”,这是翻译时的一个小错误。正确的翻译如下:추론 시에는 EBTs가 언어 작업에서 트랜스포머++보다 시스템 2 사고를 통해 29% 더 나은 성능을 보여주었으며, 이미지 노이즈 제거 작업에서는 더 적은 순방향 패스를 사용하면서 디퓨전 트랜스포머(Diffusion Transformers)보다 우수한 결과를 얻었습니다. 또한, 동일하거나 더 나쁜 사전 훈련 성능의 경우에도 EBTs는 대부분의 다운스트림 작업에서 기존 모델보다 더 좋은 결과를 달성하였으며, 이는 EBTs가 기존 방법보다 더 잘 일반화된다는 것을 나타냅니다. 따라서, EBTs는 모델의 학습 및 사고 능력을 동시에 확장하는 새로운 전망입니다.