Command Palette
Search for a command to run...
Papers
최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

EPO: 엔트로피 정규화 정책 최적화를 통한 LLM 에이전트 강화 학습

MinerU2.5: 고해상도 문서 분석을 위한 효율적인 분리형 시각-언어 모델































EPO: 엔트로피 정규화 정책 최적화를 통한 LLM 에이전트 강화 학습

MinerU2.5: 고해상도 문서 분석을 위한 효율적인 분리형 시각-언어 모델






























엔트로피 안전 추론을 위한 분위수 우위 추정
롱라이브: 실시간 상호작용형 장시간 영상 생성
조합적 창의성: 일반화 능력의 새로운 전선
인과적 시공간 예측: 효과적이고 효율적인 다중 모달 접근법
현위안3D-오미니: 3차원 자산의 제어 가능한 생성을 위한 통합 프레임워크
시드림 4.0: 차세대 다중모달 이미지 생성을 향하여
LLM 에이전트 강화학습을 위한 트리 탐색
SciReasoner: 다양한 분야에 걸쳐 과학적 추론의 기반을 마련하다
MMR1: 분산 인지 샘플링과 오픈 리소스를 통한 다중모달 추론 강화
VCRL: 분산 기반 커리큘럼 강화 학습을 활용한 대규모 언어 모델
MultiEdit: 다양한 및 도전적인 작업에서 지시 기반 이미지 편집의 발전
BRISC: Swin-HAFNet을 활용한 뇌종양 세그멘테이션 및 분류를 위한 주석 데이터셋
EmoBench-M: 다중모달 대규모 언어 모델의 정서지능 평가를 위한 벤치마크
FDABench: 이질적 데이터에 대한 분석 쿼리에 대한 데이터 에이전트를 위한 벤치마크
그림 그리는 것보다 생각하는 것이 더 어렵다: 텍스트-이미지 모델은 무대를 준비할 수는 있지만, 연출은 할 수 없는가?
UniVerse-1: 전문가 통합을 통한 통합 음성-영상 생성
기초 모델은 단계별 몸체 인식 추론에서 얼마나 우수한가?
스파이킹브레인 기술 보고서: 스파이킹 브레인 기반 대규모 모델
SAGE: 의미 이해를 위한 현실적인 벤치마크
WAVECLIP: 웨이블릿 토큰화를 통한 적응형 해상도 CLIP
임베딩젬마: 강력하고 가벼운 텍스트 표현
GRPO를 활용한 음성 인식 언어 모델에서의 음성 이해 향상
VLMs는 시각적 공간 지능에서 얼마나 멀어졌는가? 벤치마크 기반의 관점
SIM-CoT: 감독 하에 의도된 사고의 사슬
SWE-QA: 언어 모델은 리포지토리 수준의 코드 질문에 답할 수 있는가?
비디오 모델은 제로샷 학습자이자 추론자이다.
기계공학 분석 문제의 핵심적 해결을 위한 N-플러스-1 GPT 에이전시
메모리-QA: 다중모달 메모리를 기반으로 한 회상 질문 답변
MAPO: 혼합 우위 정책 최적화
하이퍼베이글: 다중모달 이해 및 생성을 위한 통합 가속 프레임워크
엔트로피 안전 추론을 위한 분위수 우위 추정
롱라이브: 실시간 상호작용형 장시간 영상 생성
조합적 창의성: 일반화 능력의 새로운 전선
인과적 시공간 예측: 효과적이고 효율적인 다중 모달 접근법
현위안3D-오미니: 3차원 자산의 제어 가능한 생성을 위한 통합 프레임워크
시드림 4.0: 차세대 다중모달 이미지 생성을 향하여
LLM 에이전트 강화학습을 위한 트리 탐색
SciReasoner: 다양한 분야에 걸쳐 과학적 추론의 기반을 마련하다
MMR1: 분산 인지 샘플링과 오픈 리소스를 통한 다중모달 추론 강화
VCRL: 분산 기반 커리큘럼 강화 학습을 활용한 대규모 언어 모델
MultiEdit: 다양한 및 도전적인 작업에서 지시 기반 이미지 편집의 발전
BRISC: Swin-HAFNet을 활용한 뇌종양 세그멘테이션 및 분류를 위한 주석 데이터셋
EmoBench-M: 다중모달 대규모 언어 모델의 정서지능 평가를 위한 벤치마크
FDABench: 이질적 데이터에 대한 분석 쿼리에 대한 데이터 에이전트를 위한 벤치마크
그림 그리는 것보다 생각하는 것이 더 어렵다: 텍스트-이미지 모델은 무대를 준비할 수는 있지만, 연출은 할 수 없는가?
UniVerse-1: 전문가 통합을 통한 통합 음성-영상 생성
기초 모델은 단계별 몸체 인식 추론에서 얼마나 우수한가?
스파이킹브레인 기술 보고서: 스파이킹 브레인 기반 대규모 모델
SAGE: 의미 이해를 위한 현실적인 벤치마크
WAVECLIP: 웨이블릿 토큰화를 통한 적응형 해상도 CLIP
임베딩젬마: 강력하고 가벼운 텍스트 표현
GRPO를 활용한 음성 인식 언어 모델에서의 음성 이해 향상
VLMs는 시각적 공간 지능에서 얼마나 멀어졌는가? 벤치마크 기반의 관점
SIM-CoT: 감독 하에 의도된 사고의 사슬
SWE-QA: 언어 모델은 리포지토리 수준의 코드 질문에 답할 수 있는가?
비디오 모델은 제로샷 학습자이자 추론자이다.
기계공학 분석 문제의 핵심적 해결을 위한 N-플러스-1 GPT 에이전시
메모리-QA: 다중모달 메모리를 기반으로 한 회상 질문 답변
MAPO: 혼합 우위 정책 최적화
하이퍼베이글: 다중모달 이해 및 생성을 위한 통합 가속 프레임워크