Command Palette
Search for a command to run...
Papers
최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

SPPO: Long-Horizon Reasoning Tasks를 위한 Sequence-Level PPO

화면 위의 튜링 테스트: Mobile GUI Agent의 인간다움(Humanization)을 평가하기 위한 Benchmark































SPPO: Long-Horizon Reasoning Tasks를 위한 Sequence-Level PPO

화면 위의 튜링 테스트: Mobile GUI Agent의 인간다움(Humanization)을 평가하기 위한 Benchmark






























Audio-Omni: 멀티모달 이해를 다재다능한 오디오 Generation 및 Editing으로 확장하기
대규모 언어 모델(LLMs)의 On-Policy Distillation에 대한 재고: 현상학, 메커니즘 및 레시피
KnowRL: Minimal-Sufficient Knowledge Guidance를 이용한 Reinforcement Learning 기반 LLM Reasoning 능력 향상
Uni-ViGU: A Diffusion-Based Video Generator를 통한 통합된 Video Generation 및 Understanding을 향하여
ClawGUI: GUI Agent의 Training, Evaluating 및 Deploying을 위한 Unified Framework
Transformer에서의 Attention Sink: 활용, 해석 및 완화에 관한 서베이 (A Survey on Utilization, Interpretation, and Mitigation)
OmniShow: Human-Object Interaction 비디오 생성을 위한 멀티모달 조건의 통합
과거는 과거가 아니다: Memory-Enhanced Dynamic Reward Shaping
QuanBench+: LLM 기반 양자 코드 생성을 위한 통합 멀티 프레임워크 Benchmark
시각적 생성을 위한 Elastic Looped Transformers
ECHO: One-step Block Diffusion을 이용한 효율적인 Chest X-ray Report Generation
Matrix-Game 3.0: Long-Horizon Memory를 갖춘 실시간 및 스트리밍 방식의 인터랙티브 World Model
EXAONE 4.5 기술 보고서
RefineAnything: 완벽한 국소적 디테일을 위한 멀티모달 영역 특화 Refinement
FORGE: 제조 시나리오를 위한 세밀한(Fine-grained) 멀티모달 평가 방법론
WildDet3D: 야생 환경에서의 Promptable 3D Detection 스케일링
Autoreason: 중단 시점을 파악하는 자기 정교화(Self-Refinement) 기법
ActiveGlasses: Ego-centric Human Demonstration를 통한 Active Vision 기반 Manipulation 학습
MegaStyle: 일관된 Text-to-Image Style Mapping을 통한 다양하고 확장 가능한 Style Dataset 구축
숫자가 말할 때: Text-to-Video Diffusion Models에서의 Textual Numerals와 Visual Instances 간의 정렬 (Aligning)
HY-Embodied-0.5: Real-World Agent를 위한 Embodied Foundation Model
ClawBench: AI Agent가 일상적인 온라인 태스크를 수행할 수 있는가?
Reasoning SFT에서의 일반화(Generalization)에 대한 재고: Optimization, Data, 그리고 Model Capability에 관한 조건부 분석
SkillClaw: Agentic Evolver를 통해 스킬들이 집단적으로 진화하도록 만들기
MDPBench: 실전 시나리오에서의 다국어 문서 파싱을 위한 벤치마크
TC-AE: Deep Compression Autoencoder의 Token Capacity를 극대화하는 방법
INSPATIO-WORLD: 시공간적 Autoregressive Modeling을 통한 실시간 4D World Simulator
FlowInOne: Unifying Multimodal Generation as Image-in, Image-out Flow Matching
MARS: Autoregressive Model의 Multi-Token Generation 가능화
픽셀이 아닌 스트로크로 사고하기: 교차 추론을 통한 프로세스 중심의 Image Generation
Audio-Omni: 멀티모달 이해를 다재다능한 오디오 Generation 및 Editing으로 확장하기
대규모 언어 모델(LLMs)의 On-Policy Distillation에 대한 재고: 현상학, 메커니즘 및 레시피
KnowRL: Minimal-Sufficient Knowledge Guidance를 이용한 Reinforcement Learning 기반 LLM Reasoning 능력 향상
Uni-ViGU: A Diffusion-Based Video Generator를 통한 통합된 Video Generation 및 Understanding을 향하여
ClawGUI: GUI Agent의 Training, Evaluating 및 Deploying을 위한 Unified Framework
Transformer에서의 Attention Sink: 활용, 해석 및 완화에 관한 서베이 (A Survey on Utilization, Interpretation, and Mitigation)
OmniShow: Human-Object Interaction 비디오 생성을 위한 멀티모달 조건의 통합
과거는 과거가 아니다: Memory-Enhanced Dynamic Reward Shaping
QuanBench+: LLM 기반 양자 코드 생성을 위한 통합 멀티 프레임워크 Benchmark
시각적 생성을 위한 Elastic Looped Transformers
ECHO: One-step Block Diffusion을 이용한 효율적인 Chest X-ray Report Generation
Matrix-Game 3.0: Long-Horizon Memory를 갖춘 실시간 및 스트리밍 방식의 인터랙티브 World Model
EXAONE 4.5 기술 보고서
RefineAnything: 완벽한 국소적 디테일을 위한 멀티모달 영역 특화 Refinement
FORGE: 제조 시나리오를 위한 세밀한(Fine-grained) 멀티모달 평가 방법론
WildDet3D: 야생 환경에서의 Promptable 3D Detection 스케일링
Autoreason: 중단 시점을 파악하는 자기 정교화(Self-Refinement) 기법
ActiveGlasses: Ego-centric Human Demonstration를 통한 Active Vision 기반 Manipulation 학습
MegaStyle: 일관된 Text-to-Image Style Mapping을 통한 다양하고 확장 가능한 Style Dataset 구축
숫자가 말할 때: Text-to-Video Diffusion Models에서의 Textual Numerals와 Visual Instances 간의 정렬 (Aligning)
HY-Embodied-0.5: Real-World Agent를 위한 Embodied Foundation Model
ClawBench: AI Agent가 일상적인 온라인 태스크를 수행할 수 있는가?
Reasoning SFT에서의 일반화(Generalization)에 대한 재고: Optimization, Data, 그리고 Model Capability에 관한 조건부 분석
SkillClaw: Agentic Evolver를 통해 스킬들이 집단적으로 진화하도록 만들기
MDPBench: 실전 시나리오에서의 다국어 문서 파싱을 위한 벤치마크
TC-AE: Deep Compression Autoencoder의 Token Capacity를 극대화하는 방법
INSPATIO-WORLD: 시공간적 Autoregressive Modeling을 통한 실시간 4D World Simulator
FlowInOne: Unifying Multimodal Generation as Image-in, Image-out Flow Matching
MARS: Autoregressive Model의 Multi-Token Generation 가능화
픽셀이 아닌 스트로크로 사고하기: 교차 추론을 통한 프로세스 중심의 Image Generation