날짜

2달 전

조직

Paper URL

태그

배치 중 학습(Learning While Deploying, LWD)은 2026년 상하이 혁신 연구소, AIZ 로봇공학, 컬럼비아 대학교 연구진에 의해 제안되었으며, 관련 연구 결과는 논문으로 발표되었습니다. 배포 중 학습: 범용 로봇 정책을 위한 대규모 강화 학습 .

LWD는 대규모 플릿 배포와 오프라인-온라인 강화 학습을 결합한 확장 가능한 프레임워크입니다. 이 프레임워크는 오프라인 사전 학습 데이터에만 의존하여 복잡한 실제 환경에서 작업을 수행하는 일반적인 비전-언어-행동(VLA) 모델이 겪는 "분포 변화 및 롱테일 실패" 문제를 주로 해결합니다. LWD는 분산 암묵적 가치 학습(DIVL)과 QAM(Adjoint Matching) 기반 Q-러닝을 도입하여 실제 환경에서 자율 로봇 상호작용 및 인간 개입으로부터 데이터를 지속적으로 수집함으로써 실제 적용 시나리오에서 벗어나지 않고 정책 모델을 안정적으로 반복 학습할 수 있도록 합니다. 연구 결과는 LWD가 보상 부족으로 인한 학습 병목 현상을 효과적으로 극복하여 다양한 실제 물리적 환경에서 범용 모델의 적응성과 일반화 능력을 크게 향상시킨다는 것을 보여줍니다. 슈퍼마켓 상품 진열, 차 우리는 과정, 칵테일 제조 등 8가지 복잡한 실제 시나리오에서 단일 범용 정책 모델은 평균 951 TP3T의 작업 성공률을 달성했으며 장기 작업의 실행 시간을 크게 단축했습니다.

연합 학습

분산형 머신러닝 접근 방식은 학습 데이터를 로컬 장치에 저장하고, 로컬에서 계산된 모델 업데이트만을 집계하여 공유되는 전역 모델을 학습시킵니다.

3달 전

세계 행동 모델 WAM

WAM은 체화된 지능 및 로봇 공학 분야를 위한 새로운 AI 기반 모델 아키텍처입니다.

2달 전

유도 사고 강화

GTR은 복잡한 시각 환경에서 모델 추론을 안내하고 "뇌 기능 저하"를 방지할 수 있습니다.

3달 전

공간 이론

공간 이론은 지능형 에이전트가 불완전한 정보 환경에서 능동적인 탐색을 통해 공간적 믿음을 구성, 업데이트 및 활용하는 능력을 설명하는 틀을 의미합니다.

3달 전

덴스 리트리버

고밀도 검색 엔진은 방대한 문서 라이브러리에서 쿼리 의미와 가장 관련성이 높은 단락을 신속하게 찾아내는 역할을 하며, 검색 기능 향상 생성 시스템의 핵심 기반 구성 요소입니다.

3달 전

피크 리턴 그리디 슬라이싱

PRGS는 오프라인 강화 학습 모델이 높은 보상을 제공하는 경험들을 연결하는 능력을 크게 향상시킵니다.

3달 전

원격 감지

위성 및 드론 이미지를 분석하여 지구 표면과 환경을 모니터링하면 비접촉 방식으로 지리 공간적 이해를 얻고 지구를 거시적으로 관찰할 수 있습니다.

하루 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

날짜

2달 전

조직

Paper URL

태그

연합 학습

3달 전

세계 행동 모델 WAM

WAM은 체화된 지능 및 로봇 공학 분야를 위한 새로운 AI 기반 모델 아키텍처입니다.

2달 전

유도 사고 강화

GTR은 복잡한 시각 환경에서 모델 추론을 안내하고 "뇌 기능 저하"를 방지할 수 있습니다.

3달 전

공간 이론

3달 전

덴스 리트리버

3달 전

피크 리턴 그리디 슬라이싱

PRGS는 오프라인 강화 학습 모델이 높은 보상을 제공하는 경험들을 연결하는 능력을 크게 향상시킵니다.

3달 전

원격 감지

하루 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

AI로 AI 구축

HyperAI Newsletters

관련 위키

연합 학습

세계 행동 모델 WAM

유도 사고 강화

공간 이론

덴스 리트리버

피크 리턴 그리디 슬라이싱

원격 감지

AI로 AI 구축

HyperAI Newsletters

관련 위키

연합 학습

세계 행동 모델 WAM

유도 사고 강화

공간 이론

덴스 리트리버

피크 리턴 그리디 슬라이싱

원격 감지

AI로 AI 구축

HyperAI Newsletters

관련 위키

연합 학습

세계 행동 모델 WAM

유도 사고 강화

공간 이론

덴스 리트리버

피크 리턴 그리디 슬라이싱

원격 감지

관련 위키

연합 학습

세계 행동 모델 WAM

유도 사고 강화

공간 이론

덴스 리트리버

피크 리턴 그리디 슬라이싱

원격 감지

Command Palette

배포하면서 배우기

AI로 AI 구축

HyperAI Newsletters

Command Palette

배포하면서 배우기

관련 위키

연합 학습

세계 행동 모델 WAM

유도 사고 강화

공간 이론

덴스 리트리버

피크 리턴 그리디 슬라이싱

원격 감지

AI로 AI 구축

HyperAI Newsletters

Command Palette

배포하면서 배우기

관련 위키

연합 학습

세계 행동 모델 WAM

유도 사고 강화

공간 이론

덴스 리트리버

피크 리턴 그리디 슬라이싱

원격 감지

AI로 AI 구축

HyperAI Newsletters

관련 위키

연합 학습

세계 행동 모델 WAM

유도 사고 강화

공간 이론

덴스 리트리버

피크 리턴 그리디 슬라이싱

원격 감지

관련 위키

연합 학습

세계 행동 모델 WAM

유도 사고 강화

공간 이론

덴스 리트리버

피크 리턴 그리디 슬라이싱

원격 감지