Command Palette
Search for a command to run...
Papers
최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

터보디퓨전: 100~200배 빠르게 하는 비디오 디퓨전 모델

훈옌비디오-폴리: 높은 충실도를 위한 폴리 오디오 생성을 위한 표현 정렬을 통한 다중모달 확산































터보디퓨전: 100~200배 빠르게 하는 비디오 디퓨전 모델

훈옌비디오-폴리: 높은 충실도를 위한 폴리 오디오 생성을 위한 표현 정렬을 통한 다중모달 확산






























Fara-7B: 컴퓨터 사용을 위한 효율적인 에이전트 모델
Fun-ASR 기술 보고서
지미를 활용한 과학 연구 가속화: 사례 연구 및 일반 기법
작은 에이전트의 전략 경매를 통한 확장
Vibe AIGC: 에이전트 조율을 통한 콘텐츠 생성의 새로운 패러다임
PaperSearchQA: RLVR를 활용한 과학 논문에 대한 검색 및 추론 학습
EgoActor: 시각-언어 모델을 통한 공간 인지적 자기 중심 행동에 임무 계획을 기반으로 하는 인간형 로봇을 위한 접근
A-RAG: 계층적 검색 인터페이스를 통한 에이전트 기반 검색 증강 생성의 확장성 향상
Quant VideoGen: 2비트 KV 캐시 양자화를 통한 자동 회귀적 장시간 비디오 생성
SoMA: 로봇 소프트바디 조작을 위한 실세계-시뮬레이션 신경망 시뮬레이터
3D 인식 임플리시트 모션 제어를 통한 시점 적응형 인간 영상 생성
daVinci-Agency: 장기적 원격 에이전시 데이터의 효율적 활용
세계 모델에 대한 연구는 특정 작업에 세계 지식을 주입하는 것을 넘어서는 것이다.
AOrchestra: 에이전트 오케스트레이션을 위한 서브에이전트 생성 자동화
체인-오브-스포크에서의 글로벌 플랜 부재: LLM의 잠재적 플래닝 호라이즌 탐구
CodeOCR: 시각언어 모델의 코드 이해에 대한 효과성에 관한 연구
DeepPlanning: 검증 가능한 제약 조건을 갖춘 장기 계획 태스크에 대한 벤치마킹
CL-벤치: 컨텍스트 학습을 위한 벤치마크
자기-편자에 의한 강화 학습
채팅봇을 사회적 동반자로 인식하는 방식: 사용자가 기계의 의식, 인간성, 그리고 사회적 건강상의 이익을 어떻게 인지하는가
POPE: 정책 탐색을 통해 어려운 문제에서 추론하는 방법 학습하기
UniReason 1.0: 세계 지식을 일치시키는 이미지 생성 및 편집을 위한 통합 추론 프레임워크
루프 닫기: RPG-Encoder를 통한 유니버설 레포지터리 표현
비전-디프리서치 벤치마크: 다중모달 대규모 언어 모델을 위한 시각적 및 텍스트 검색의 재고
비전-딥리서치: 다중모달 대규모 언어 모델에서 딥리서치 능력 유도하기
Kimi K2.5: 시각적 에이전트 지능
그린-VLA: 일반화 로봇을 위한 단계적 시각-언어-행동 모델
PaperBanana: 인공지능 과학자를 위한 학술 일러스트 자동화
지미를 활용한 반자율 수학 탐구: 에르되시 문제에 대한 사례 연구
잠재적 체인-오프-Thought를 계획으로 활용하기: 추론과 언어화 분리하기
Fara-7B: 컴퓨터 사용을 위한 효율적인 에이전트 모델
Fun-ASR 기술 보고서
지미를 활용한 과학 연구 가속화: 사례 연구 및 일반 기법
작은 에이전트의 전략 경매를 통한 확장
Vibe AIGC: 에이전트 조율을 통한 콘텐츠 생성의 새로운 패러다임
PaperSearchQA: RLVR를 활용한 과학 논문에 대한 검색 및 추론 학습
EgoActor: 시각-언어 모델을 통한 공간 인지적 자기 중심 행동에 임무 계획을 기반으로 하는 인간형 로봇을 위한 접근
A-RAG: 계층적 검색 인터페이스를 통한 에이전트 기반 검색 증강 생성의 확장성 향상
Quant VideoGen: 2비트 KV 캐시 양자화를 통한 자동 회귀적 장시간 비디오 생성
SoMA: 로봇 소프트바디 조작을 위한 실세계-시뮬레이션 신경망 시뮬레이터
3D 인식 임플리시트 모션 제어를 통한 시점 적응형 인간 영상 생성
daVinci-Agency: 장기적 원격 에이전시 데이터의 효율적 활용
세계 모델에 대한 연구는 특정 작업에 세계 지식을 주입하는 것을 넘어서는 것이다.
AOrchestra: 에이전트 오케스트레이션을 위한 서브에이전트 생성 자동화
체인-오브-스포크에서의 글로벌 플랜 부재: LLM의 잠재적 플래닝 호라이즌 탐구
CodeOCR: 시각언어 모델의 코드 이해에 대한 효과성에 관한 연구
DeepPlanning: 검증 가능한 제약 조건을 갖춘 장기 계획 태스크에 대한 벤치마킹
CL-벤치: 컨텍스트 학습을 위한 벤치마크
자기-편자에 의한 강화 학습
채팅봇을 사회적 동반자로 인식하는 방식: 사용자가 기계의 의식, 인간성, 그리고 사회적 건강상의 이익을 어떻게 인지하는가
POPE: 정책 탐색을 통해 어려운 문제에서 추론하는 방법 학습하기
UniReason 1.0: 세계 지식을 일치시키는 이미지 생성 및 편집을 위한 통합 추론 프레임워크
루프 닫기: RPG-Encoder를 통한 유니버설 레포지터리 표현
비전-디프리서치 벤치마크: 다중모달 대규모 언어 모델을 위한 시각적 및 텍스트 검색의 재고
비전-딥리서치: 다중모달 대규모 언어 모델에서 딥리서치 능력 유도하기
Kimi K2.5: 시각적 에이전트 지능
그린-VLA: 일반화 로봇을 위한 단계적 시각-언어-행동 모델
PaperBanana: 인공지능 과학자를 위한 학술 일러스트 자동화
지미를 활용한 반자율 수학 탐구: 에르되시 문제에 대한 사례 연구
잠재적 체인-오프-Thought를 계획으로 활용하기: 추론과 언어화 분리하기