Command Palette
Search for a command to run...
Papers
최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

SpatialBoost: 언어 기반 추론을 통한 시각적 표현 향상

VideoDetective: 장편 영상 이해를 위한 외재적 쿼리와 내재적 관련성을 통한 단서 탐지































SpatialBoost: 언어 기반 추론을 통한 시각적 표현 향상

VideoDetective: 장편 영상 이해를 위한 외재적 쿼리와 내재적 관련성을 통한 단서 탐지






























LongCat-Flash-Prover: Agentic Tool-Integrated Reinforcement Learning를 통한 Native Formal Reasoning의 발전
단순성에 의한 속도: 빠른 오디오-비디오 생성 기반 모델을 위한 단일 스트림 아키텍처
Omni-WorldBench: 세계 모델에 대한 포괄적인 상호작용 중심 평가 지향
PrismAudio: 비디오-오디오 생성을 위한 분해된 연쇄 사고와 다차원 보상
LeWorldModel: 픽셀 기반의 안정적 엔드투엔드 공동 임베딩 예측 아키텍처
FlowScene: 멀티모달 그래프 정류 흐름을 통한 스타일 일관성 실내 장면 생성
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation
LLMs 를 위한 Y-Combinator: λ-Calculus 를 통한 Long-Context Rot 해결
ProactiveBench: Multimodal Large Language Models의 Proactiveness 평가
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
Astrolabe: 증류된 자기회귀 비디오 모델을 위한 전진 과정 강화 학습의 제어
HopChain: 일반화된 비전-언어 추론을 위한 멀티홉 데이터 합성
Diffusion 기반 이산 운동 Tokenizer 를 통한 의미론적 및 운동학적 조건 간의 연결
FASTER: 실시간 흐름 VLAs 에 대한 재고찰
3DreamBooth: 고정밀 3D 주제 주도형 비디오 생성 모델
SAMA: 지시 기반 비디오 편집을 위한 분해된 의미 앵커링 및 운동 정렬
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
균형 잡힌 사고를 통한 효율적 추론
행동 전 확인: 비전-언어-행동 모델을 위한 비전 기반 표현 강화
보완적 강화 학습
정렬은 언어 모델을 기술적이지 않고 규범적으로 만듭니다.
MosaicMem: 제어 가능한 비디오 월드 모델을 위한 하이브리드 공간 기억
MetaClaw: Just Talk -- 야생 환경에서 메타학습 및 진화를 수행하는 Agent
Video-CoE: Chain of Events를 통한 비디오 이벤트 예측 강화
FunCineForge: 다양한 영화 장면에서의 Zero-Shot 영화 더빙을 위한 통합 데이터셋 툴킷 및 모델
Large Language Models를 위한 In-Context Watermarks
WorldCam: 카메라 포즈를 통합 기하학적 표현으로 활용한 대화형 자기회귀 3D 게임 월드
비디오 추론의 신비 해명
Kinema4D: 시공간적 구체적 시뮬레이션을 위한 운동학적 4D 세계 모델링
Qianfan-OCR: 문서 지능을 위한 통합 엔드투엔드 모델
LongCat-Flash-Prover: Agentic Tool-Integrated Reinforcement Learning를 통한 Native Formal Reasoning의 발전
단순성에 의한 속도: 빠른 오디오-비디오 생성 기반 모델을 위한 단일 스트림 아키텍처
Omni-WorldBench: 세계 모델에 대한 포괄적인 상호작용 중심 평가 지향
PrismAudio: 비디오-오디오 생성을 위한 분해된 연쇄 사고와 다차원 보상
LeWorldModel: 픽셀 기반의 안정적 엔드투엔드 공동 임베딩 예측 아키텍처
FlowScene: 멀티모달 그래프 정류 흐름을 통한 스타일 일관성 실내 장면 생성
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation
LLMs 를 위한 Y-Combinator: λ-Calculus 를 통한 Long-Context Rot 해결
ProactiveBench: Multimodal Large Language Models의 Proactiveness 평가
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
Astrolabe: 증류된 자기회귀 비디오 모델을 위한 전진 과정 강화 학습의 제어
HopChain: 일반화된 비전-언어 추론을 위한 멀티홉 데이터 합성
Diffusion 기반 이산 운동 Tokenizer 를 통한 의미론적 및 운동학적 조건 간의 연결
FASTER: 실시간 흐름 VLAs 에 대한 재고찰
3DreamBooth: 고정밀 3D 주제 주도형 비디오 생성 모델
SAMA: 지시 기반 비디오 편집을 위한 분해된 의미 앵커링 및 운동 정렬
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
균형 잡힌 사고를 통한 효율적 추론
행동 전 확인: 비전-언어-행동 모델을 위한 비전 기반 표현 강화
보완적 강화 학습
정렬은 언어 모델을 기술적이지 않고 규범적으로 만듭니다.
MosaicMem: 제어 가능한 비디오 월드 모델을 위한 하이브리드 공간 기억
MetaClaw: Just Talk -- 야생 환경에서 메타학습 및 진화를 수행하는 Agent
Video-CoE: Chain of Events를 통한 비디오 이벤트 예측 강화
FunCineForge: 다양한 영화 장면에서의 Zero-Shot 영화 더빙을 위한 통합 데이터셋 툴킷 및 모델
Large Language Models를 위한 In-Context Watermarks
WorldCam: 카메라 포즈를 통합 기하학적 표현으로 활용한 대화형 자기회귀 3D 게임 월드
비디오 추론의 신비 해명
Kinema4D: 시공간적 구체적 시뮬레이션을 위한 운동학적 4D 세계 모델링
Qianfan-OCR: 문서 지능을 위한 통합 엔드투엔드 모델