날짜

8달 전

조직

Paper URL

태그

DisCO 프레임워크는 2025년 5월 텍사스 A&M 대학 연구팀에 의해 제안되었으며, 관련 연구 결과는 논문 "DisCO: 판별 제약 최적화를 통한 대규모 추론 모델 강화이 연구는 NeurIPS 2025에 선정되었습니다.

DisCO 프레임워크는 차별적 학습 원리에 기반합니다. 즉, 긍정적 답변의 점수는 높이고 부정적 답변의 점수는 낮춰 LRM을 강화합니다. 이 프레임워크는 그룹 상대 정책 최적화(GRPO) 및 그 변형 프레임워크에 비해 상당한 장점을 가지고 있습니다.

(i) 차별적 목표를 채택함으로써 난이도 편향이 완전히 제거되었습니다.

(ii) 비가지치기 점수 함수와 제약 최적화 방법을 사용하여 GRPO 및 그 변형의 엔트로피 불안정성 문제가 해결되어 길고 안정적인 학습 역학이 생성됩니다.

(iii) 학습 중에 많은 수의 질문이 긍정적인 답변보다 부정적인 답변을 더 많이 생성하는 불균형 데이터 문제를 해결하기 위해 고급 차별 학습 기술을 통합할 수 있습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

날짜

8달 전

조직

Paper URL

2505.12366

태그

기계 학습

(i) 차별적 목표를 채택함으로써 난이도 편향이 완전히 제거되었습니다.

유도 사고 강화

GTR은 복잡한 시각 환경에서 모델 추론을 안내하고 "뇌 기능 저하"를 방지할 수 있습니다.

3달 전

공간 이론

공간 이론은 지능형 에이전트가 불완전한 정보 환경에서 능동적인 탐색을 통해 공간적 믿음을 구성, 업데이트 및 활용하는 능력을 설명하는 틀을 의미합니다.

3달 전

피크 리턴 그리디 슬라이싱

PRGS는 오프라인 강화 학습 모델이 높은 보상을 제공하는 경험들을 연결하는 능력을 크게 향상시킵니다.

3달 전

배포하면서 배우기

LWD는 범용 로봇이 지속적으로 경험을 수집하고 정책을 자체적으로 진화시킬 수 있도록 하는, 플릿 수준의 오프라인-온라인 강화 학습 프레임워크입니다.

2달 전

덴스 리트리버

고밀도 검색 엔진은 방대한 문서 라이브러리에서 쿼리 의미와 가장 관련성이 높은 단락을 신속하게 찾아내는 역할을 하며, 검색 기능 향상 생성 시스템의 핵심 기반 구성 요소입니다.

3달 전

세계 행동 모델 WAM

WAM은 체화된 지능 및 로봇 공학 분야를 위한 새로운 AI 기반 모델 아키텍처입니다.

2달 전

원격 감지

위성 및 드론 이미지를 분석하여 지구 표면과 환경을 모니터링하면 비접촉 방식으로 지리 공간적 이해를 얻고 지구를 거시적으로 관찰할 수 있습니다.

하루 전

자동 음성 인식

인간의 자연스러운 대화에서 기계가 음향 신호를 해석하지 못하여 발생하는 "상호작용 격차" 문제를 해결하기 위해.

5일 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

차별적 제약 최적화 프레임워크(DisCO) | Wiki | HyperAI초신경

Command Palette

차별적 제약 최적화 프레임워크(DisCO)

AI로 AI 구축

HyperAI Newsletters

Command Palette

차별적 제약 최적화 프레임워크(DisCO)

관련 위키

유도 사고 강화

공간 이론

피크 리턴 그리디 슬라이싱

배포하면서 배우기

덴스 리트리버

세계 행동 모델 WAM

원격 감지

자동 음성 인식

AI로 AI 구축

HyperAI Newsletters

Command Palette

차별적 제약 최적화 프레임워크(DisCO)

관련 위키

유도 사고 강화

공간 이론

피크 리턴 그리디 슬라이싱

배포하면서 배우기

덴스 리트리버

세계 행동 모델 WAM

원격 감지

자동 음성 인식

AI로 AI 구축

HyperAI Newsletters

관련 위키

유도 사고 강화

공간 이론

피크 리턴 그리디 슬라이싱

배포하면서 배우기

덴스 리트리버

세계 행동 모델 WAM

원격 감지

자동 음성 인식

관련 위키

유도 사고 강화

공간 이론

피크 리턴 그리디 슬라이싱

배포하면서 배우기

덴스 리트리버

세계 행동 모델 WAM

원격 감지

자동 음성 인식