날짜

3달 전

조직

Paper URL

태그

유도적 사고 강화(GTR) 프레임워크는 칭화대학교, 텐센트, 베이징대학교 연구진이 2025년 7월 11일에 제안했으며, 관련 연구 결과는 논문으로 발표되었습니다. GTR: 유도된 사고 강화는 RL 기반 VLM 에이전트 훈련에서 사고 붕괴를 방지합니다. .

GTR은 자동 오류 수정과 강화 학습을 결합한 간단하고 확장 가능한 프레임워크로, 복잡한 시각 환경에서 다단계 의사 결정을 내리는 시각 언어 모델(VLM) 에이전트가 결과 보상에만 의존하여 발생하는 "사고 붕괴" 문제를 해결하기 위해 설계되었습니다. 이 프레임워크는 강화 학습의 각 단계에서 에이전트의 추론을 평가하고 개선하는 자동 오류 수정 기능을 도입하여, 집중적인 수동 주석 작업 없이 추론과 행동을 동시에 학습할 수 있도록 합니다. 연구 결과에 따르면 GTR은 사고 붕괴를 효과적으로 억제하고 다양한 시각 환경에서 모델(예: LLaVA-7B)의 성능과 일반화 능력을 크게 향상시킵니다. 24점 게임이나 구체적인 작업과 같은 복잡한 시나리오에서 GTR은 기존 최첨단 모델보다 3~5배 높은 작업 성공률을 달성하면서도 매개변수 개수는 더 적습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

날짜

3달 전

조직

Paper URL

태그

배포하면서 배우기

LWD는 범용 로봇이 지속적으로 경험을 수집하고 정책을 자체적으로 진화시킬 수 있도록 하는, 플릿 수준의 오프라인-온라인 강화 학습 프레임워크입니다.

2달 전

피크 리턴 그리디 슬라이싱

PRGS는 오프라인 강화 학습 모델이 높은 보상을 제공하는 경험들을 연결하는 능력을 크게 향상시킵니다.

3달 전

광학 문자 인식(OCR)

OCR(광학 문자 인식)은 이미지 속 텍스트를 편집 가능한 텍스트로 변환하는 기술로, 문서 디지털화 및 자동 정보 추출의 핵심 기반이 됩니다.

2일 전

덴스 리트리버

고밀도 검색 엔진은 방대한 문서 라이브러리에서 쿼리 의미와 가장 관련성이 높은 단락을 신속하게 찾아내는 역할을 하며, 검색 기능 향상 생성 시스템의 핵심 기반 구성 요소입니다.

3달 전

공간 이론

공간 이론은 지능형 에이전트가 불완전한 정보 환경에서 능동적인 탐색을 통해 공간적 믿음을 구성, 업데이트 및 활용하는 능력을 설명하는 틀을 의미합니다.

3달 전

음성 향상

음성 향상 기술은 잡음과 잔향을 억제하여 손상된 음성을 개선하는 기술입니다. 이는 음성 인식 전처리 및 보청기 분야에서 널리 사용됩니다.

2일 전

연합 학습

분산형 머신러닝 접근 방식은 학습 데이터를 로컬 장치에 저장하고, 로컬에서 계산된 모델 업데이트만을 집계하여 공유되는 전역 모델을 학습시킵니다.

3달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

AI로 AI 구축

HyperAI Newsletters

관련 위키

배포하면서 배우기

피크 리턴 그리디 슬라이싱

광학 문자 인식(OCR)

덴스 리트리버

공간 이론

음성 향상

연합 학습

AI로 AI 구축

HyperAI Newsletters

관련 위키

배포하면서 배우기

피크 리턴 그리디 슬라이싱

광학 문자 인식(OCR)

덴스 리트리버

공간 이론

음성 향상

연합 학습

AI로 AI 구축

HyperAI Newsletters

관련 위키

배포하면서 배우기

피크 리턴 그리디 슬라이싱

광학 문자 인식(OCR)

덴스 리트리버

공간 이론

음성 향상

연합 학습

관련 위키

배포하면서 배우기

피크 리턴 그리디 슬라이싱

광학 문자 인식(OCR)

덴스 리트리버

공간 이론

음성 향상

연합 학습

Command Palette

유도 사고 강화

AI로 AI 구축

HyperAI Newsletters

Command Palette

유도 사고 강화

관련 위키

배포하면서 배우기

피크 리턴 그리디 슬라이싱

광학 문자 인식(OCR)

덴스 리트리버

공간 이론

음성 향상

연합 학습

AI로 AI 구축

HyperAI Newsletters

Command Palette

유도 사고 강화

관련 위키

배포하면서 배우기

피크 리턴 그리디 슬라이싱

광학 문자 인식(OCR)

덴스 리트리버

공간 이론

음성 향상

연합 학습

AI로 AI 구축

HyperAI Newsletters

관련 위키

배포하면서 배우기

피크 리턴 그리디 슬라이싱

광학 문자 인식(OCR)

덴스 리트리버

공간 이론

음성 향상

연합 학습

관련 위키

배포하면서 배우기

피크 리턴 그리디 슬라이싱

광학 문자 인식(OCR)

덴스 리트리버

공간 이론

음성 향상

연합 학습