Command Palette
Search for a command to run...
Papers
최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

HiFiTTS-2: 대규모 고대역폭 음성 데이터셋

CryptoScope: 대규모 언어 모델을 활용한 암호 논리 취약점 자동 탐지































HiFiTTS-2: 대규모 고대역폭 음성 데이터셋

CryptoScope: 대규모 언어 모델을 활용한 암호 논리 취약점 자동 탐지






























의료 그래프 RAG: 그래프 검색 증강 생성을 통한 안전한 의료용 대규모 언어 모델 구현
퍼펫티어: 3D 모델을 래핑하고 애니메이션화하기
STream3R: 인과 트랜스포머를 활용한 확장 가능한 순차 3차원 재구성
프리루드: 장문의 맥락에 대한 전반적 이해와 추론을 필요로 하는 벤치마크
툰컴포저: 생성 기반 후 키프레임 기술을 통한 만화 제작의 효율화
NextStep-1: 대규모 연속 토큰을 활용한 자동회귀 이미지 생성으로 나아가기
We-Math 2.0: 시각적 수학적 사고를 촉진하는 다기능 수학책 시스템
COREVQA: 집단 관찰 및 추론 함의를 위한 시각질의응답 벤치마크
RelayFormer: 확장 가능한 이미지 및 비디오 조작 탐지를 위한 통합적 로컬-글로벌 주의 프레임워크
GMF-Drive: 공간 인지 BEV 표현을 갖춘 게이트형 Mamba 융합 기반 엔드투엔드 자율 주행
보는 것, 듣는 것, 기억하는 것, 그리고 추론하는 것: 장기 기억을 갖춘 다중 모달 에이전트
디퓨전 LLM은 이산 디퓨전 강제를 통해 AR보다 빠른 추론이 가능하다
AWorld: 안정적인 회전 운동을 갖춘 동적 다중 에이전트 시스템을 통한 강건한 GAIA 문제 해결
스토리2보드: 감정 표현이 가능한 스토리보드 생성을 위한 훈련 불필요한 접근법
대체자: 영상 생성을 위한 경량형 및 즉시 사용형 정체성 제어
Mol-R1: 분자 탐사에서 명시적 장거리-CoT 추론으로 나아가기
라마-네모트론: 효율적인 추론 모델
문서 히스테이크: 긴 컨텍스트 다중모달 이미지/문서 이해를 위한 비전 LLM 벤치마크
에코-4오: GPT-4o 합성 이미지를 활용한 이미지 생성 향상
레이블 프리 조직의 영상 질량분석에서 가상 염색
VisCodex: 시각 및 코드 모델의 융합을 통한 통합 다중모달 코드 생성
HierSearch: 로컬 검색과 웹 검색을 통합한 계층적 기업용 딥 검색 프레임워크
시간은 특징이다: 확산 언어 모델에서 시계적 동역학 활용하기
CharacterShot: 조작 가능하고 일관된 4차원 캐릭터 애니메이션
10회를 넘어서: 대규모 비동기 강화학습을 통한 장기적 에이전트 탐색의 열림
매트릭스-3D: 전방위 탐색 가능한 3D 세계 생성
웹워처: 시각-언어 심층 연구 에이전트의 새로운 전환점 열기
마르코보이스 기술 보고서
김이나-프로버 프리뷰: 강화학습을 통한 대규모 형식적 추론 모델 개발로
내재적 메모리 에이전트: 구조화된 문맥적 메모리를 통한 이질적 다중 에이전트 LLM 시스템
의료 그래프 RAG: 그래프 검색 증강 생성을 통한 안전한 의료용 대규모 언어 모델 구현
퍼펫티어: 3D 모델을 래핑하고 애니메이션화하기
STream3R: 인과 트랜스포머를 활용한 확장 가능한 순차 3차원 재구성
프리루드: 장문의 맥락에 대한 전반적 이해와 추론을 필요로 하는 벤치마크
툰컴포저: 생성 기반 후 키프레임 기술을 통한 만화 제작의 효율화
NextStep-1: 대규모 연속 토큰을 활용한 자동회귀 이미지 생성으로 나아가기
We-Math 2.0: 시각적 수학적 사고를 촉진하는 다기능 수학책 시스템
COREVQA: 집단 관찰 및 추론 함의를 위한 시각질의응답 벤치마크
RelayFormer: 확장 가능한 이미지 및 비디오 조작 탐지를 위한 통합적 로컬-글로벌 주의 프레임워크
GMF-Drive: 공간 인지 BEV 표현을 갖춘 게이트형 Mamba 융합 기반 엔드투엔드 자율 주행
보는 것, 듣는 것, 기억하는 것, 그리고 추론하는 것: 장기 기억을 갖춘 다중 모달 에이전트
디퓨전 LLM은 이산 디퓨전 강제를 통해 AR보다 빠른 추론이 가능하다
AWorld: 안정적인 회전 운동을 갖춘 동적 다중 에이전트 시스템을 통한 강건한 GAIA 문제 해결
스토리2보드: 감정 표현이 가능한 스토리보드 생성을 위한 훈련 불필요한 접근법
대체자: 영상 생성을 위한 경량형 및 즉시 사용형 정체성 제어
Mol-R1: 분자 탐사에서 명시적 장거리-CoT 추론으로 나아가기
라마-네모트론: 효율적인 추론 모델
문서 히스테이크: 긴 컨텍스트 다중모달 이미지/문서 이해를 위한 비전 LLM 벤치마크
에코-4오: GPT-4o 합성 이미지를 활용한 이미지 생성 향상
레이블 프리 조직의 영상 질량분석에서 가상 염색
VisCodex: 시각 및 코드 모델의 융합을 통한 통합 다중모달 코드 생성
HierSearch: 로컬 검색과 웹 검색을 통합한 계층적 기업용 딥 검색 프레임워크
시간은 특징이다: 확산 언어 모델에서 시계적 동역학 활용하기
CharacterShot: 조작 가능하고 일관된 4차원 캐릭터 애니메이션
10회를 넘어서: 대규모 비동기 강화학습을 통한 장기적 에이전트 탐색의 열림
매트릭스-3D: 전방위 탐색 가능한 3D 세계 생성
웹워처: 시각-언어 심층 연구 에이전트의 새로운 전환점 열기
마르코보이스 기술 보고서
김이나-프로버 프리뷰: 강화학습을 통한 대규모 형식적 추론 모델 개발로
내재적 메모리 에이전트: 구조화된 문맥적 메모리를 통한 이질적 다중 에이전트 LLM 시스템