행동은 말보다 더 큰 소리를 낸다: 생성형 추천을 위한 트릴리언 파라미터 시퀀스 변환기

대규모 추천 시스템은 높은 카디널리티를 가진 이질적인 특징에 의존하며, 하루에 수십억 개의 사용자 행동을 처리해야 하는 특징을 지닌다. 수천 개의 특징을 갖는 거대한 데이터셋으로 훈련되지만, 산업계에서 널리 사용되는 대부분의 딥러닝 추천 모델(DLRM)은 계산 자원 증가에 따라 스케일링되지 못하고 있다.언어 및 비전 분야에서 트랜스포머(Transformer)의 성공을 영감으로 삼아, 우리는 추천 시스템의 근본적인 설계 원칙을 재검토한다. 추천 문제를 생성 모델링 프레임워크 내에서 순차적 변환(sequential transduction) 작업으로 재정의함으로써 ‘생성형 추천기(Generative Recommenders)’라는 새로운 접근을 제안한다. 이에 따라 고카디널리티, 비정상적(Non-stationary)인 스트리밍 추천 데이터에 최적화된 새로운 아키텍처인 HSTU를 설계하였다.HSTU는 합성 및 공개 데이터셋에서 기준 모델 대비 NDCG 기준 최대 65.8% 향상을 달성했으며, 길이 8192인 시퀀스에서 FlashAttention2 기반 트랜스포머 대비 5.3배에서 15.2배 빠른 속도를 보였다. 1.5조 파라미터를 가진 HSTU 기반 생성형 추천기는 온라인 A/B 테스트에서 성능 지표를 12.4% 개선했으며, 수십억 명의 사용자를 보유한 대규모 인터넷 플랫폼의 여러 서비스에 이미 배포되었다. 더욱 중요한 점은, 생성형 추천기의 모델 품질이 훈련 컴퓨팅 자원에 대해 세 개의 주어진 범위에서 거듭제곱 법칙(power-law)으로 증가함이 실험적으로 확인되었으며, 이는 GPT-3/LLaMa-2 수준까지 확장 가능함을 의미한다. 이는 향후 모델 개발을 위한 탄소 배출을 줄이는 데 기여하며, 추천 분야의 첫 번째 기초 모델(Foundation Models) 개발을 위한 길을 열어준다.