Command Palette
Search for a command to run...
Papers
최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

에이전트 AI: 다중모달 상호작용의 지평 탐색

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구































에이전트 AI: 다중모달 상호작용의 지평 탐색

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구






























GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결
PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어
시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석
메타-RL은 언어 에이전트의 탐색을 유도한다
LLMCache: Transformer 추론에서 재사용을 가속화하기 위한 계층별 캐싱 전략
오픈터치: 실제 세계 상호작용에 전손 촉각을 도입하다
VideoRewardBench: 비디오 이해를 위한 다중모달 보상 모델의 종합적 평가
소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기
IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상
RecGPT-V2 기술 보고서
벡터 프리즘: 의미 구조를 계층화함으로써 벡터 그래픽을 애니메이션하는 기법
OpenDataArena: 사후 훈련 데이터셋 가치 평가를 위한 공정하고 개방적인 아레나
비디오 리얼리티 테스트: AI 생성 ASMR 영상은 VLM과 인간을 속일 수 있는가?
WorldPlay: 실시간 상호작용 세계 모델링을 위한 장기적 기하학적 일관성 도달
MMGR: 다중모달 생성적 추론
프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가
FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크
Nemotron-Cascade: 일반 목적 추론 모델을 위한 계단식 강화 학습의 확장
KlingAvatar 2.0 기술 보고서
QwenLong-L1.5: 긴 컨텍스트 추론 및 메모리 관리에 대한 후기훈련 레시피
ReFusion: 병렬 순차적 디코딩을 갖춘 확산 대규모 언어 모델
에러 없는 선형 주의(Linear Attention)는 무료 점심이다: 연속 시간 역학에서의 정확한 해
AI 에이전트 시대의 메모리
롱비에 2: 다중모달 제어 가능한 초장거리 비디오 월드 모델
FirstAidQA: 저연결성 환경에서의 응급처치 및 응급 대응을 위한 합성 데이터셋
CUDA-L2: 강화학습을 통한 행렬 곱셈에서 cuBLAS 성능을 초월하는 방법
X-VLA: 확장 가능한 다체성 시각-언어-행동 모델로서의 소프트 프롬프트 트랜스포머
Nemotron 3 Nano: 오픈형이고 효율적인 전문가 혼합형 하이브리드 Mamba-Transformer 모델, 에이전트형 추론을 위한 모델
트래킹에서 구조를 추출하기: 비디오 생성을 위한 구조 보존 동작 학습
메타캔버스를 활용한 MLLM-디퓨전 정보 전이 탐색
GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결
PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어
시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석
메타-RL은 언어 에이전트의 탐색을 유도한다
LLMCache: Transformer 추론에서 재사용을 가속화하기 위한 계층별 캐싱 전략
오픈터치: 실제 세계 상호작용에 전손 촉각을 도입하다
VideoRewardBench: 비디오 이해를 위한 다중모달 보상 모델의 종합적 평가
소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기
IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상
RecGPT-V2 기술 보고서
벡터 프리즘: 의미 구조를 계층화함으로써 벡터 그래픽을 애니메이션하는 기법
OpenDataArena: 사후 훈련 데이터셋 가치 평가를 위한 공정하고 개방적인 아레나
비디오 리얼리티 테스트: AI 생성 ASMR 영상은 VLM과 인간을 속일 수 있는가?
WorldPlay: 실시간 상호작용 세계 모델링을 위한 장기적 기하학적 일관성 도달
MMGR: 다중모달 생성적 추론
프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가
FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크
Nemotron-Cascade: 일반 목적 추론 모델을 위한 계단식 강화 학습의 확장
KlingAvatar 2.0 기술 보고서
QwenLong-L1.5: 긴 컨텍스트 추론 및 메모리 관리에 대한 후기훈련 레시피
ReFusion: 병렬 순차적 디코딩을 갖춘 확산 대규모 언어 모델
에러 없는 선형 주의(Linear Attention)는 무료 점심이다: 연속 시간 역학에서의 정확한 해
AI 에이전트 시대의 메모리
롱비에 2: 다중모달 제어 가능한 초장거리 비디오 월드 모델
FirstAidQA: 저연결성 환경에서의 응급처치 및 응급 대응을 위한 합성 데이터셋
CUDA-L2: 강화학습을 통한 행렬 곱셈에서 cuBLAS 성능을 초월하는 방법
X-VLA: 확장 가능한 다체성 시각-언어-행동 모델로서의 소프트 프롬프트 트랜스포머
Nemotron 3 Nano: 오픈형이고 효율적인 전문가 혼합형 하이브리드 Mamba-Transformer 모델, 에이전트형 추론을 위한 모델
트래킹에서 구조를 추출하기: 비디오 생성을 위한 구조 보존 동작 학습
메타캔버스를 활용한 MLLM-디퓨전 정보 전이 탐색