Command Palette
Search for a command to run...
Papers
최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

SAM 3: 개념을 활용한 모든 사물 분할

GeoVista: 지리적 위치 추정을 위한 웹 증강 Agent 시각적 추론































SAM 3: 개념을 활용한 모든 사물 분할

GeoVista: 지리적 위치 추정을 위한 웹 증강 Agent 시각적 추론






























OpenMMReasoner: 개방형 범용 방법론을 통한 멀티모달 추론의 지평 확장
HiPO: 동적 추론을 위한 하이브리드 정책 최적화 기법
SERES: 희소 시점에서의 의미 인지 신경 재구성
SDAR: 확장 가능한 시퀀스 생성을 위한 유기적 확산-자기회귀 패러다임
MultiPL-MoE: 대규모 언어 모델의 다중 프로그래밍-다국어 확장에 대한 하이브리드 전문가 집합 기반 접근
CapRL: 강화학습을 통한 밀도 높은 이미지 설명 능력 자극
디스크리트 확산 발산 지시를 통한 초고속 언어 생성
DisCO: 구분적 제약 최적화를 통한 대규모 추론 모델의 강화
QSVD: 정밀도가 낮은 비전-언어 모델에서 통합 쿼리-키-밸류 가중치 압축을 위한 효율적인 저랭크 근사
중첩 학습: 심층 학습 아키텍처의 환상
SAM 3D: 이미지 내의 어떤 것이라도 3D로 변환하기
비디오-어답: 공동-그룹-정책 최적화를 통한 다음 비디오 이벤트 예측 및 생성
첫 프레임이 비디오 콘텐츠 커스터마이제이션의 핵심 장소이다
다중모달 기반 모델을 통한 공간 지능의 스케일링
Step-Audio-R1 기술 보고서
V-ReasonBench: 비디오 생성 모델을 위한 통합 추론 벤치마크 세트로의 도전
올모 3
GPT-5를 활용한 초기 과학 가속 실험
좋은 AI 연구 에이전트가 되기 위해 필요한 요소는 무엇인가? 아이디어 다각화의 역할을 탐구한다
지시에 기반한 LLM을 활용한 흉부 X선 이미지의 병변 세그멘테이션 및 자동 생성된 대규모 데이터셋 적용
VisPlay: 이미지에서 자가진화하는 시각-언어 모델
비디오를 통한 추론: 미로 해결 과제를 통한 비디오 모델의 추론 능력에 대한 최초 평가
VIDEOP2R: 인지에서 추론에 이르는 비디오 이해
Kandinsky 5.0: 이미지 및 비디오 생성을 위한 기초 모델 가족
JAM-2: 고도로 계산 기반의 약물 유사 항체의 설계 및 높은 성공률
PathMind: 대규모 언어 모델을 활용한 지식 그래프 추론을 위한 Retrieve-Prioritize-Reason 프레임워크
검토자: 텍스트적 반성을 넘어서, 장문의 비디오 이해에서 다중모달 내면적 사고로 전환하기
MVI-Bench: LVLMs의 오도적 시각 입력에 대한 강건성 평가를 위한 종합 벤치마크
세계 시뮬레이터는 추론할 수 있는가? Gen-ViRe: 생성형 시각적 추론 벤치마크
스타일 하나가 코드 하나보다 더 가치 있다: 이산 스타일 공간을 통한 코드에서 스타일 이미지 생성 해제
OpenMMReasoner: 개방형 범용 방법론을 통한 멀티모달 추론의 지평 확장
HiPO: 동적 추론을 위한 하이브리드 정책 최적화 기법
SERES: 희소 시점에서의 의미 인지 신경 재구성
SDAR: 확장 가능한 시퀀스 생성을 위한 유기적 확산-자기회귀 패러다임
MultiPL-MoE: 대규모 언어 모델의 다중 프로그래밍-다국어 확장에 대한 하이브리드 전문가 집합 기반 접근
CapRL: 강화학습을 통한 밀도 높은 이미지 설명 능력 자극
디스크리트 확산 발산 지시를 통한 초고속 언어 생성
DisCO: 구분적 제약 최적화를 통한 대규모 추론 모델의 강화
QSVD: 정밀도가 낮은 비전-언어 모델에서 통합 쿼리-키-밸류 가중치 압축을 위한 효율적인 저랭크 근사
중첩 학습: 심층 학습 아키텍처의 환상
SAM 3D: 이미지 내의 어떤 것이라도 3D로 변환하기
비디오-어답: 공동-그룹-정책 최적화를 통한 다음 비디오 이벤트 예측 및 생성
첫 프레임이 비디오 콘텐츠 커스터마이제이션의 핵심 장소이다
다중모달 기반 모델을 통한 공간 지능의 스케일링
Step-Audio-R1 기술 보고서
V-ReasonBench: 비디오 생성 모델을 위한 통합 추론 벤치마크 세트로의 도전
올모 3
GPT-5를 활용한 초기 과학 가속 실험
좋은 AI 연구 에이전트가 되기 위해 필요한 요소는 무엇인가? 아이디어 다각화의 역할을 탐구한다
지시에 기반한 LLM을 활용한 흉부 X선 이미지의 병변 세그멘테이션 및 자동 생성된 대규모 데이터셋 적용
VisPlay: 이미지에서 자가진화하는 시각-언어 모델
비디오를 통한 추론: 미로 해결 과제를 통한 비디오 모델의 추론 능력에 대한 최초 평가
VIDEOP2R: 인지에서 추론에 이르는 비디오 이해
Kandinsky 5.0: 이미지 및 비디오 생성을 위한 기초 모델 가족
JAM-2: 고도로 계산 기반의 약물 유사 항체의 설계 및 높은 성공률
PathMind: 대규모 언어 모델을 활용한 지식 그래프 추론을 위한 Retrieve-Prioritize-Reason 프레임워크
검토자: 텍스트적 반성을 넘어서, 장문의 비디오 이해에서 다중모달 내면적 사고로 전환하기
MVI-Bench: LVLMs의 오도적 시각 입력에 대한 강건성 평가를 위한 종합 벤치마크
세계 시뮬레이터는 추론할 수 있는가? Gen-ViRe: 생성형 시각적 추론 벤치마크
스타일 하나가 코드 하나보다 더 가치 있다: 이산 스타일 공간을 통한 코드에서 스타일 이미지 생성 해제