날짜

3달 전

조직

Paper URL

openreview.net

태그

강화 학습

평균 속도 정책(MVP)은 칭화대학교(차량교통학과 및 인공지능학과), 캘리포니아대학교 버클리 캠퍼스의 바이두 인공지능 연구소(BAIR), 그리고 홍콩대학교 연구팀이 공동으로 제안했습니다. 관련 연구 결과는 "단일 단계 동작 생성을 위한 순간 속도 제약 조건을 포함하는 평균 흐름 정책"는 ICLR 2026에 채택되었습니다.

MVP는 강화 학습을 위한 새로운 생성 정책으로, "평균 속도장"을 모델링하여 가장 빠른 단일 단계 액션 생성을 달성하고, 다단계 샘플링의 계산 오버헤드를 완전히 제거합니다. 모델에 명시적인 경계 조건이 부족하다는 문제를 해결하기 위해 연구팀은 "순간 속도 제약 조건(IVC)"을 도입하여 학습 정확도와 정책 표현력을 효과적으로 향상시켰습니다. 실제 성능에서 MVP는 학습 및 추론 속도를 크게 향상시키고(평균 단일 단계 추론 시간은 단 10.93밀리초), Robomimic 및 OGBench의 복잡한 로봇 조작 작업에서 0.88의 최첨단 평균 성공률을 달성하여 해당 분야의 최고 수준에 도달했습니다.

세계 행동 모델 WAM

WAM은 체화된 지능 및 로봇 공학 분야를 위한 새로운 AI 기반 모델 아키텍처입니다.

2달 전

피크 리턴 그리디 슬라이싱

PRGS는 오프라인 강화 학습 모델이 높은 보상을 제공하는 경험들을 연결하는 능력을 크게 향상시킵니다.

3달 전

공간 이론

공간 이론은 지능형 에이전트가 불완전한 정보 환경에서 능동적인 탐색을 통해 공간적 믿음을 구성, 업데이트 및 활용하는 능력을 설명하는 틀을 의미합니다.

3달 전

덴스 리트리버

고밀도 검색 엔진은 방대한 문서 라이브러리에서 쿼리 의미와 가장 관련성이 높은 단락을 신속하게 찾아내는 역할을 하며, 검색 기능 향상 생성 시스템의 핵심 기반 구성 요소입니다.

3달 전

음성 향상

음성 향상 기술은 잡음과 잔향을 억제하여 손상된 음성을 개선하는 기술입니다. 이는 음성 인식 전처리 및 보청기 분야에서 널리 사용됩니다.

하루 전

배포하면서 배우기

LWD는 범용 로봇이 지속적으로 경험을 수집하고 정책을 자체적으로 진화시킬 수 있도록 하는, 플릿 수준의 오프라인-온라인 강화 학습 프레임워크입니다.

2달 전

유도 사고 강화

GTR은 복잡한 시각 환경에서 모델 추론을 안내하고 "뇌 기능 저하"를 방지할 수 있습니다.

3달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

날짜

3달 전

조직

Paper URL

openreview.net

태그

강화 학습

세계 행동 모델 WAM

WAM은 체화된 지능 및 로봇 공학 분야를 위한 새로운 AI 기반 모델 아키텍처입니다.

2달 전

피크 리턴 그리디 슬라이싱

PRGS는 오프라인 강화 학습 모델이 높은 보상을 제공하는 경험들을 연결하는 능력을 크게 향상시킵니다.

3달 전

공간 이론

3달 전

덴스 리트리버

3달 전

음성 향상

음성 향상 기술은 잡음과 잔향을 억제하여 손상된 음성을 개선하는 기술입니다. 이는 음성 인식 전처리 및 보청기 분야에서 널리 사용됩니다.

하루 전

배포하면서 배우기

2달 전

유도 사고 강화

GTR은 복잡한 시각 환경에서 모델 추론을 안내하고 "뇌 기능 저하"를 방지할 수 있습니다.

3달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

AI로 AI 구축

HyperAI Newsletters

관련 위키

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

공간 이론

덴스 리트리버

음성 향상

배포하면서 배우기

유도 사고 강화

AI로 AI 구축

HyperAI Newsletters

관련 위키

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

공간 이론

덴스 리트리버

음성 향상

배포하면서 배우기

유도 사고 강화

AI로 AI 구축

HyperAI Newsletters

관련 위키

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

공간 이론

덴스 리트리버

음성 향상

배포하면서 배우기

유도 사고 강화

관련 위키

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

공간 이론

덴스 리트리버

음성 향상

배포하면서 배우기

유도 사고 강화

Command Palette

평균 속도 전략(MVP)

AI로 AI 구축

HyperAI Newsletters

Command Palette

평균 속도 전략(MVP)

관련 위키

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

공간 이론

덴스 리트리버

음성 향상

배포하면서 배우기

유도 사고 강화

AI로 AI 구축

HyperAI Newsletters

Command Palette

평균 속도 전략(MVP)

관련 위키

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

공간 이론

덴스 리트리버

음성 향상

배포하면서 배우기

유도 사고 강화

AI로 AI 구축

HyperAI Newsletters

관련 위키

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

공간 이론

덴스 리트리버

음성 향상

배포하면서 배우기

유도 사고 강화

관련 위키

세계 행동 모델 WAM

피크 리턴 그리디 슬라이싱

공간 이론

덴스 리트리버

음성 향상

배포하면서 배우기

유도 사고 강화