HyperAIHyperAI

Command Palette

Search for a command to run...

알파마요-R1: 긴 꼬리 상황에서 일반화 가능한 자율주행을 위한 추론과 행동 예측의 통합

초록

임의의 학습을 통해 훈련된 엔드투엔드 아키텍처는 모델 크기와 데이터 규모를 확장함으로써 자율주행 기술을 발전시켜왔으나, 감독 신호가 희박하고 인과적 이해가 제한된 안전이 핵심인 긴 꼬리(long-tail) 시나리오에서는 여전히 성능이 취약하다. 이를 해결하기 위해, 복잡한 주행 상황에서의 의사결정을 향상시키기 위해 인과 사고 체계(Chain of Causation)를 궤도 계획과 통합한 시각-언어-행동 모델(Vision-Language-Action model, VLA)인 Alpamayo-R1(AR1)을 제안한다. 본 연구는 세 가지 핵심 혁신을 포함한다: (1) 자동 레이블링과 인간-중개(human-in-the-loop) 프로세스를 결합한 하이브리드 파이프라인을 통해 구축된 인과 사고(Chain of Causation, CoC) 데이터셋으로, 주행 행동과 일치하는 의사결정 기반의 인과적 연결된 사고 흐름을 생성한다; (2) 물리적 AI 응용을 위해 사전 훈련된 시각-언어 모델 Cosmos-Reason과 확산 기반의 궤도 디코더를 결합한 모듈러 VLA 아키텍처로, 실시간으로 동적 실현 가능(planning)한 경로를 생성한다; (3) 사고를 유도하기 위해 지도 학습을 통한 미세 조정(supervised fine-tuning)과, 대규모 사고 모델의 피드백을 활용하여 사고 품질을 최적화하고 사고-행동 일관성을 강제하는 강화학습(Reinforcement Learning, RL)을 결합한 다단계 훈련 전략. 평가 결과, AR1은 경로만을 고려하는 기준 모델 대비 어려운 케이스에서 궤도 계획 정확도가 최대 12% 향상되었으며, 폐쇄 루프 시뮬레이션에서 차선 이탈률은 35%, 근접 접촉률은 25% 감소하였다. 강화학습 기반 사후 훈련을 통해 대규모 사고 모델 평가 기준으로 사고 품질이 45% 향상되었고, 사고-행동 일관성은 37% 개선되었다. 모델 규모를 0.5B에서 7B 파라미터로 확장함에 따라 일관된 성능 향상이 관찰되었다. 차량 내 실도로 테스트를 통해 실시간 성능(99ms 지연 시간)과 도심 환경에서의 성공적 적용이 확인되었다. 해석 가능한 사고와 정밀한 제어를 연결함으로써, AR1은 레벨 4 자율주행을 위한 실용적인 길을 제시한다. 향후 업데이트를 통해 AR1 모델과 CoC 데이터셋의 일부를 공개할 계획이다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
알파마요-R1: 긴 꼬리 상황에서 일반화 가능한 자율주행을 위한 추론과 행동 예측의 통합 | 문서 | HyperAI초신경