Discord에서 논의하기

9달 전

다중모달 표현

Nikita Dragunov Temurbek Rahmatullaev Elizaveta Goncharova Andrey Kuznetsov Anton Razzhigaev

초록

최근 제안된 대규모 개념 모델(Large Concept Model, LCM)은 문장 수준의 임베딩 시퀀스를 예측함으로써 텍스트를 생성하며, 평균제곱오차 또는 확산 목표함수를 통해 학습한다. 본 연구에서는 동일한 연속적인 SONAR 임베딩 공간에서 "사고"하는 디코더 전용 트랜스포머인 SONAR-LLM을 제안한다. 이 모델은 동결된 SONAR 디코더를 통해 전파되는 토큰 수준의 교차엔트로피를 통해 지도 학습되며, LCM의 의미적 추상화 능력을 유지하면서도 확산 샘플러를 제거하고 확률 기반의 학습 신호를 복원한다. 39M에서 13억 파라미터에 이르는 다양한 모델 규모에서 SONAR-LLM은 경쟁력 있는 텍스트 생성 성능을 달성한다. 본 연구에서는 스케일링 경향, 아블레이션 연구 결과, 벤치마크 성능을 보고하며, 재현성과 향후 연구를 촉진하기 위해 전체 학습 코드 및 모든 사전 학습된 체크포인트를 공개한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

9달 전

다중모달 표현

Nikita Dragunov Temurbek Rahmatullaev Elizaveta Goncharova Andrey Kuznetsov Anton Razzhigaev

초록

최근 제안된 대규모 개념 모델(Large Concept Model, LCM)은 문장 수준의 임베딩 시퀀스를 예측함으로써 텍스트를 생성하며, 평균제곱오차 또는 확산 목표함수를 통해 학습한다. 본 연구에서는 동일한 연속적인 SONAR 임베딩 공간에서 "사고"하는 디코더 전용 트랜스포머인 SONAR-LLM을 제안한다. 이 모델은 동결된 SONAR 디코더를 통해 전파되는 토큰 수준의 교차엔트로피를 통해 지도 학습되며, LCM의 의미적 추상화 능력을 유지하면서도 확산 샘플러를 제거하고 확률 기반의 학습 신호를 복원한다. 39M에서 13억 파라미터에 이르는 다양한 모델 규모에서 SONAR-LLM은 경쟁력 있는 텍스트 생성 성능을 달성한다. 본 연구에서는 스케일링 경향, 아블레이션 연구 결과, 벤치마크 성능을 보고하며, 재현성과 향후 연구를 촉진하기 위해 전체 학습 코드 및 모든 사전 학습된 체크포인트를 공개한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

SONAR-LLM: 문장 임베딩으로 사고하고 토큰으로 말하는 자동회귀형 트랜스포머 | 문서 | HyperAI초신경