Command Palette
Search for a command to run...
Papers
최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

SAM 오디오: 오디오 내에서 무엇이든 분할하기

스텝딥리서치 기술 보고서































SAM 오디오: 오디오 내에서 무엇이든 분할하기

스텝딥리서치 기술 보고서






























SpatialTree: MLLMs에서 공간 능력이 어떻게 분기되는가
SemanticGen: 의미 공간에서의 비디오 생성
사람이 루프 내에 포함된 추론 대규모 언어 모델 에이전트를 이용한 자동화된 입체적 방사선 수술 계획 수립
롱비디오에이전트: 긴 영상에서의 다중 에이전트 추론
GenEnv: LLM 에이전트와 환경 시뮬레이터 간의 난이도 일치형 공진화
월드워프: 비동기 영상 디퓨전을 통한 3D 기하학의 전파
LoGoPlanner: 메트릭 인지 시각 기하를 기반으로 한 위치 인식 기반 내비게이션 정책
LLM은 학습자 곤란을 추정할 수 있는가? 전문성 시뮬레이션을 통한 인간-AI 어려움 일치를 통한 항목 어려움 예측
QuCo-RAG: 사전 훈련 코퍼스로부터의 불확실성 정량화를 통한 동적 검색 증강 생성
프리즘 가설: 통합 오토인코딩을 통한 의미 표현과 픽셀 표현의 조화
Med-Banana-50K: 텍스트 유도 의료 영상 편집을 위한 크로스모달리티 대규모 데이터셋
Kascade: 긴 컨텍스트 LLM 추론을 위한 실용적인 희소 어텐션 방법
GLM-4.5: 에이전트, 추론 및 코딩(ARC) 기반 모델
GroundingME: 다차원 평가를 통한 MLLM의 시각적 기반 갭 노출
의미론과 재구성 모두 중요하다: 텍스트-to-이미지 생성 및 편집을 위한 표현 인코더 준비하기
4D-RGPT: 지각 증류를 통한 영역 수준의 4차원 이해로 향해
시드-프로버 1.5: 경험 학습을 통한 대학 수준 정리 증명 능력 습득
이론이 그 법칙과 만날 때
LLM의 과학적 일반지능 탐구: 과학자 중심 워크플로우를 활용하여
K2-V2: 360-오픈, 추론 강화형 LLM
VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크
MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크
NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델
H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해
세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다
알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화
깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델
생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절
StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습
다음 임베딩 예측은 강력한 비전 학습자들을 만든다
SpatialTree: MLLMs에서 공간 능력이 어떻게 분기되는가
SemanticGen: 의미 공간에서의 비디오 생성
사람이 루프 내에 포함된 추론 대규모 언어 모델 에이전트를 이용한 자동화된 입체적 방사선 수술 계획 수립
롱비디오에이전트: 긴 영상에서의 다중 에이전트 추론
GenEnv: LLM 에이전트와 환경 시뮬레이터 간의 난이도 일치형 공진화
월드워프: 비동기 영상 디퓨전을 통한 3D 기하학의 전파
LoGoPlanner: 메트릭 인지 시각 기하를 기반으로 한 위치 인식 기반 내비게이션 정책
LLM은 학습자 곤란을 추정할 수 있는가? 전문성 시뮬레이션을 통한 인간-AI 어려움 일치를 통한 항목 어려움 예측
QuCo-RAG: 사전 훈련 코퍼스로부터의 불확실성 정량화를 통한 동적 검색 증강 생성
프리즘 가설: 통합 오토인코딩을 통한 의미 표현과 픽셀 표현의 조화
Med-Banana-50K: 텍스트 유도 의료 영상 편집을 위한 크로스모달리티 대규모 데이터셋
Kascade: 긴 컨텍스트 LLM 추론을 위한 실용적인 희소 어텐션 방법
GLM-4.5: 에이전트, 추론 및 코딩(ARC) 기반 모델
GroundingME: 다차원 평가를 통한 MLLM의 시각적 기반 갭 노출
의미론과 재구성 모두 중요하다: 텍스트-to-이미지 생성 및 편집을 위한 표현 인코더 준비하기
4D-RGPT: 지각 증류를 통한 영역 수준의 4차원 이해로 향해
시드-프로버 1.5: 경험 학습을 통한 대학 수준 정리 증명 능력 습득
이론이 그 법칙과 만날 때
LLM의 과학적 일반지능 탐구: 과학자 중심 워크플로우를 활용하여
K2-V2: 360-오픈, 추론 강화형 LLM
VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크
MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크
NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델
H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해
세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다
알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화
깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델
생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절
StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습
다음 임베딩 예측은 강력한 비전 학습자들을 만든다