Command Palette
Search for a command to run...
Papers
최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

K2-V2: 360-오픈, 추론 강화형 LLM

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크































K2-V2: 360-오픈, 추론 강화형 LLM

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크






























MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크
NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델
H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해
세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다
알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화
깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델
생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절
StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습
다음 임베딩 예측은 강력한 비전 학습자들을 만든다
에이전트 AI: 다중모달 상호작용의 지평 탐색
인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구
GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결
PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어
시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석
메타-RL은 언어 에이전트의 탐색을 유도한다
LLMCache: Transformer 추론에서 재사용을 가속화하기 위한 계층별 캐싱 전략
오픈터치: 실제 세계 상호작용에 전손 촉각을 도입하다
VideoRewardBench: 비디오 이해를 위한 다중모달 보상 모델의 종합적 평가
소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기
IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상
RecGPT-V2 기술 보고서
벡터 프리즘: 의미 구조를 계층화함으로써 벡터 그래픽을 애니메이션하는 기법
OpenDataArena: 사후 훈련 데이터셋 가치 평가를 위한 공정하고 개방적인 아레나
비디오 리얼리티 테스트: AI 생성 ASMR 영상은 VLM과 인간을 속일 수 있는가?
WorldPlay: 실시간 상호작용 세계 모델링을 위한 장기적 기하학적 일관성 도달
MMGR: 다중모달 생성적 추론
프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가
FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크
Nemotron-Cascade: 일반 목적 추론 모델을 위한 계단식 강화 학습의 확장
KlingAvatar 2.0 기술 보고서
MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크
NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델
H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해
세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다
알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화
깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델
생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절
StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습
다음 임베딩 예측은 강력한 비전 학습자들을 만든다
에이전트 AI: 다중모달 상호작용의 지평 탐색
인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구
GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결
PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어
시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석
메타-RL은 언어 에이전트의 탐색을 유도한다
LLMCache: Transformer 추론에서 재사용을 가속화하기 위한 계층별 캐싱 전략
오픈터치: 실제 세계 상호작용에 전손 촉각을 도입하다
VideoRewardBench: 비디오 이해를 위한 다중모달 보상 모델의 종합적 평가
소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기
IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상
RecGPT-V2 기술 보고서
벡터 프리즘: 의미 구조를 계층화함으로써 벡터 그래픽을 애니메이션하는 기법
OpenDataArena: 사후 훈련 데이터셋 가치 평가를 위한 공정하고 개방적인 아레나
비디오 리얼리티 테스트: AI 생성 ASMR 영상은 VLM과 인간을 속일 수 있는가?
WorldPlay: 실시간 상호작용 세계 모델링을 위한 장기적 기하학적 일관성 도달
MMGR: 다중모달 생성적 추론
프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가
FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크
Nemotron-Cascade: 일반 목적 추론 모델을 위한 계단식 강화 학습의 확장
KlingAvatar 2.0 기술 보고서