Command Palette
Search for a command to run...
혁신적인 입출력 기술! 텐센트 훈위안, 최첨단 3D 재구성 기술 '훈위안월드-미러' 출시; 넷플릭스 콘텐츠 전체 화면 디코딩! 넷플릭스 영화 및 TV 카탈로그 데이터세트, 엔터테인먼트 트렌드 분석에 도움

시각 기하 학습은 컴퓨터 비전 분야의 핵심 주제로, 증강 현실, 로봇 조작, 자율 주행 등에 널리 적용됩니다. 동작 구조(SfM)나 다시점 스테레오 기법과 같은 기존 방식은 일반적으로 반복적 최적화에 의존하여 높은 계산 비용을 초래합니다.최근 몇 년 동안 이 분야는 점차 피드포워드 신경망을 기반으로 한 엔드투엔드 기하 구조 재구성 모델로 전환되었습니다.
상당한 성과에도 불구하고 기존 방법은 여전히 입력 및 출력 차원에서 분명한 한계를 가지고 있습니다.입력 측면에서 현재 모델은 원시 이미지만 처리하기 때문에 카메라 내장 정보, 초기 포즈, 센서 깊이와 같은 쉽게 사용 가능한 사전 정보를 활용하지 못합니다.이로 인해 스케일 모호성, 여러 시점 간의 불일치, 텍스처가 부족한 영역과 같은 문제를 처리할 때 성능이 저하됩니다. 출력 측면에서 기존 방법들은 대부분 단일 또는 소수의 기하학적 작업(예: 깊이 또는 자세 추정)에 국한되어 있어 높은 전문화 수준과 통합 부족을 보입니다. VGGT와 같은 연구는 작업 통합을 촉진했지만, 표면 법선 추정 및 새로운 시점 합성과 같은 기본 작업은 아직 통합 프레임워크에 통합되지 않았습니다.
앞서 언급한 한계로 인해 핵심적인 질문이 제기됩니다. 다양한 사전 정보를 효과적으로 통합하여 일반적인 3D 재구성 프레임워크 내에서 입력 및 출력 과제를 동시에 해결하는 것이 가능할까요?
이를 바탕으로,텐센트의 Hunyuan 팀은 다양한 3D 기하 예측 작업을 위한 완전히 통합된 피드포워드 모델인 HunyuanWorld-Mirror를 출시했습니다. 이 모델은 사용 가능한 모든 기하 사전 지식을 활용하여 일반적인 3D 재구성 작업을 수행하도록 설계되었습니다.이 모델의 핵심은 카메라 포즈, 고유 매개변수, 깊이 맵을 포함한 여러 기하학적 사전 정보를 유연하게 통합하는 동시에, 밀집 포인트 클라우드, 멀티뷰 깊이 맵, 카메라 매개변수, 표면 법선, 3D 가우시안 분포 등 여러 3D 표현을 생성하는 새로운 다중 모드 사전 큐잉 메커니즘입니다. 이 통합 아키텍처는 이용 가능한 사전 정보를 활용하여 구조적 모호성을 해결하고 단일 피드포워드 프로세스로 기하학적으로 일관된 3D 출력을 제공합니다.
HunyuanWorld-Mirror는 사용 가능한 사전 정보를 활용하여 까다로운 시나리오에서도 견고한 재구성을 가능하게 하며, 다중 작업 설계를 통해 다양한 출력에서 기하학적 일관성을 보장합니다.카메라, 포인트 맵, 깊이 및 표면 법선 추정부터 새로운 관점 합성까지 광범위한 벤치마크에서 최첨단 성능이 달성되었습니다.
HyperAI 웹사이트에서 이제 "HunyuanWorld-Mirror: 3D 세계 생성 모델"을 선보입니다. 와서 직접 체험해 보세요!
온라인 사용:https://go.hyper.ai/Ptv69
11월 24일부터 11월 28일까지 hyper.ai 공식 웹사이트 업데이트에 대한 간략한 개요는 다음과 같습니다.
* 고품질 공개 데이터 세트: 7개
* 고품질 튜토리얼 선택: 6개
* 이번 주 추천 논문 : 5
* 커뮤니티 기사 해석 : 5개 기사
* 인기 백과사전 항목: 5개
12월 마감일이 있는 주요 컨퍼런스: 2
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. PhysToolBench 물리 도구 작업 데이터 세트
PhysToolBench는 홍콩과학기술대학교(광저우)가 홍콩과학기술대학교, 베이징항공우주대학교 및 기타 기관들과 협력하여 발표한 시각 언어 질의응답(VQA) 데이터셋입니다. 이 데이터셋은 다중 모드 대규모 언어 모델(MLLM)이 물리적 도구를 인식, 이해 및 생성하는 능력을 평가하는 것을 목표로 합니다. 이 데이터셋은 일상생활, 산업, 야외 활동, 업무 환경 등 다양한 시나리오를 포괄하는 1,000개 이상의 이미지-텍스트 쌍을 포함합니다.
직접 사용:https://go.hyper.ai/bP9Ad

2. CytoData 혈액 세포 이미지 데이터 세트
CytoData 혈액 세포 이미지 데이터세트는 영국 케임브리지 대학교 연구팀이 Nature에 발표한 익명화된 혈액 세포 데이터세트입니다. 이 데이터세트는 케임브리지 애든브룩스 병원의 혈액 도말 표본 2,904개를 포함하며, 총 559,808개의 단일 세포 이미지를 포함하고 있습니다. 이 중 4,996개의 이미지는 적혈구모세포와 호산구를 포함한 10가지 혈액 세포 유형으로 분류되어 있습니다.
직접 사용:https://go.hyper.ai/uLXKt
3. MeshCoder: 구조화된 3D 객체-코드 데이터 세트
MeshCoder는 상하이 인공지능 연구소가 칭화대학교, 하얼빈 공업대학(선전) 및 기타 기관들과 협력하여 공개한 3D 포인트 클라우드에서 편집 가능한 코드를 생성하는 멀티모달 데이터셋입니다. MeshCoder는 3D 장면 분석, 구조 이해 및 프로그래밍 가능한 기하학적 재구성 분야에서 대규모 언어 모델 개발을 촉진하는 것을 목표로 합니다.
직접 사용:https://go.hyper.ai/x3zvv
4. Netflix 영화 및 TV 카탈로그 데이터 세트
넷플릭스 영화 및 TV 프로그램 카탈로그 데이터셋은 전 세계 여러 국가의 다양한 영화 및 TV 콘텐츠를 포괄하는 포괄적인 카탈로그 데이터셋입니다. 넷플릭스 플랫폼의 전반적인 콘텐츠 유통 현황을 보여주고 엔터테인먼트 트렌드, 시청자 선호도, 콘텐츠 전략 연구에 필요한 데이터 지원을 제공합니다. 이 데이터셋에는 넷플릭스에서 이미 제공되는 영화 및 TV 시리즈 항목이 포함되어 있습니다. 각 항목은 제목을 나타내며 제목, 콘텐츠 유형(영화 또는 TV 시리즈), 감독 등의 주요 정보를 포함합니다.
직접 사용:https://go.hyper.ai/8gzcZ
5. InteractMove 3D 장면 인간-사물 상호작용 데이터 세트
InteractMove는 베이징대학교 컴퓨터과학기술연구소와 베이징전자과학기술연구소가 공동으로 공개한 3D 장면에서 인간-사물 상호작용을 생성하는 데이터셋입니다. 텍스트 기반 제어 기반 이동 객체 상호작용 모델링 연구를 지원하고 촉진하는 것을 목표로 합니다. 이 데이터셋은 다양한 유형의 이동 객체와 다양한 실제 스캔 장면을 포괄하며, 장면과 엄격하게 연계된 인간-사물 상호작용 동작 시퀀스를 제공합니다.
직접 사용:https://go.hyper.ai/uFrPd
6. GroundCUA 인터페이스 작동 교육 데이터 세트
GroundCUA는 밀라 퀘벡 인공지능 연구소(Mila Quebec Artificial Intelligence Institute)가 맥길 대학교, 몬트리올 대학교 및 기타 기관들과 협력하여 공개한 실제 사용자 인터페이스(UI) 데이터셋입니다. 컴퓨터와 상호 작용할 수 있는 다중 모드 지능형 에이전트 연구를 지원하는 것을 목표로 합니다. 이 데이터셋은 전문가 수준의 인간 시연을 기반으로 구축되었으며, 356만 개 이상의 수동으로 검증된 요소 수준 주석을 제공합니다.
직접 사용:https://go.hyper.ai/5bDrX
7. 카메라 클론 멀티뷰 데이터 세트
홍콩대학교가 저장대학교, 콰이쇼우 테크놀로지 및 기타 기관들과 협력하여 공개한 카메라 클론(Camera Clone)은 언리얼 엔진 5 렌더링을 기반으로 하는 대규모 합성 비디오 데이터셋입니다. 카메라 클론 학습을 지원하는 것을 목표로 합니다. 카메라 클론 학습은 장면 콘텐츠는 그대로 유지하면서 참조 비디오의 카메라 동작을 복제하여 "콘텐츠 재현 + 카메라 동작 매칭"을 구현합니다.
직접 사용:https://go.hyper.ai/US4nY
선택된 공개 튜토리얼
1. PyTorch 공식 튜토리얼: PyTorch를 활용한 딥러닝 구현
이 튜토리얼의 목표는 PyTorch에서 텐서를 사용하고 신경망을 구축하는 방법을 이해하고, 작은 신경망을 훈련하여 이미지를 분류하는 것입니다.
온라인으로 실행:https://go.hyper.ai/Fb2c6
2. HunyuanWorld-Mirror: 3D 세계 생성 모델
HunyuanWorld-Mirror는 텐센트의 Hunyuan 팀이 공개한 오픈소스 3D 세계 생성 모델입니다. 멀티뷰 이미지 및 비디오를 포함한 다양한 입력 방식을 지원하고, 포인트 클라우드, 깊이 맵, 카메라 매개변수 등 다양한 3D 기하 예측 결과를 출력할 수 있습니다. 이 모델은 순수 피드포워드 아키텍처를 채택하여 단일 그래픽 카드에 배포할 수 있으며, 8~32개의 뷰 입력을 단 1초 만에 로컬에서 처리하여 2차 추론을 구현합니다.
온라인으로 실행:https://go.hyper.ai/Ptv69

3. DiffVox: 사운드 차별화 모델
DiffVox 프로젝트는 소니 AI, 소니 그룹, 그리고 런던 퀸 메리 대학교 연구팀이 공동으로 시작했습니다. 이 모델의 핵심 역량은 고급 추론 시간 최적화 기법과 혁신적인 가우시안 사전 제약 조건 도입에 있습니다. 이를 통해 원본 인간 음성 녹음을 대상 참조에 가청적으로 가깝고 매개변수 측면에서 전문적인 믹싱 표준을 충족하는 고품질 오디오로 지능적으로 변환할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/Y19Wv

4. SmolLM3-3B 모델의 원클릭 배포
Hugging Face TB(Transformer Big) 팀이 출시한 SmolLM3-3B는 "에지 성능의 한계"로 자리매김했습니다. 30억 개의 매개변수를 가진 혁신적인 오픈소스 언어 모델인 SmolLM3-3B는 3B 크기의 소형 모델에서 기존 모델의 성능 한계를 뛰어넘는 것을 목표로 합니다.
온라인으로 실행:https://go.hyper.ai/wZ48d

5. PixelReasoner-RL: 픽셀 수준 시각적 추론 모델
PixelReasoner-RL-v1은 TIGER AI Lab에서 출시한 획기적인 시각 언어 모델입니다. Qwen2.5-VL 아키텍처를 기반으로 하는 이 프로젝트는 혁신적인 호기심 기반 강화 학습 학습 방식을 활용하여 텍스트 기반 추론에만 의존하는 기존 시각 언어 모델의 한계를 극복합니다. 이 모델은 픽셀 공간에서 직접 추론을 수행하여 크기 조정 및 프레임 선택과 같은 시각적 작업을 지원하여 이미지 세부 정보, 공간 관계 및 비디오 콘텐츠에 대한 이해력을 크게 향상시킵니다.
온라인으로 실행:https://go.hyper.ai/t1rdr

6. Krea-realtime-video: 실시간 비디오 생성 모델
Krea Realtime 14B는 Krea 팀이 출시한 140억 개의 매개변수를 가진 실시간 비디오 생성 모델입니다. 실시간 장편 비디오 생성을 지원하며, 현재 공개된 실시간 비디오 생성 모델 중 가장 큰 규모를 자랑합니다. Wan 2.1 14B 텍스트-비디오 모델을 기반으로 하는 이 모델은 자가 강제 증류 학습을 통해 기존 비디오 확산 모델을 자기회귀 구조로 변환하여 진정한 실시간 비디오 생성 경험을 제공합니다.
온라인으로 실행:https://go.hyper.ai/GS7oW

이번 주 논문 추천
1. 심층 연구를 통한 일반 에이전트 메모리
본 논문은 일반 에이전트 메모리(GAM)라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 "적시 처리(JIT)" 원칙을 따릅니다. 즉, 오프라인에서는 간단하지만 실용적인 메모리만 유지하고, 런타임 시 클라이언트를 위한 최적화된 컨텍스트를 구축하는 데 중점을 둡니다. 실험 연구를 통해 GAM은 기존 메모리 시스템 대비 다양한 메모리 기반 작업 완료 시나리오에서 상당한 성능 향상을 달성하는 것으로 나타났습니다.
논문 링크:https://go.hyper.ai/sA1RN
2. ROOT: 신경망 학습을 위한 강력한 직교화 최적화기
본 논문에서는 이중 강건성 메커니즘을 통해 학습 안정성을 크게 향상시키는 강건 직교화 최적화기인 ROOT를 제안합니다. 광범위한 실험 결과를 통해 ROOT는 잡음이 많은 환경과 비볼록 최적화 시나리오에서 강건성이 크게 향상됨을 보여줍니다. 뮤온 및 아담 기반 최적화기와 비교했을 때, ROOT는 더 빠르게 수렴할 뿐만 아니라 최종 성능도 우수합니다.
논문 링크:https://go.hyper.ai/gv0x2
3. GigaEvo: LLM 및 Evolution 알고리즘을 기반으로 하는 오픈 소스 최적화 프레임워크
본 논문은 AlphaEvolve에서 영감을 받은 하이브리드 LLM-진화 계산 방법에 대한 연구 및 실험을 지원하도록 설계된 확장 가능한 오픈소스 프레임워크인 GigaEvo를 제안합니다. GigaEvo 시스템은 MAP-Elites 품질-다양성 알고리즘, 방향성 비순환 그래프(DAG) 기반 비동기 평가 파이프라인, 통찰력 있는 생성 기능을 갖춘 LLM 기반 돌연변이 연산자, 그리고 양방향 계통 추적 메커니즘 등 여러 핵심 구성 요소의 모듈식 구현을 제공하며, 유연한 다중 섬 진화 전략도 지원합니다.
논문 링크:https://go.hyper.ai/jN3Q1
4. SAM 3: 개념을 사용하여 모든 것을 세분화합니다.
본 논문에서는 개념 프롬프트를 기반으로 이미지와 비디오에서 객체를 감지, 분할 및 추적할 수 있는 통합 모델인 SAM(Segment Anything Model) 3을 제안합니다. SAM 3은 이미지 및 비디오 PCS 작업에서 기존 시스템보다 두 배 높은 정확도를 달성하고, 시각적 분할 작업에서는 이전 세대 SAM의 성능을 향상시킵니다. SAM 3는 현재 오픈 소스로 공개되었으며, 프롬프트 기반 개념 분할을 위한 새로운 벤치마크인 Segment Anything with Concepts(SA-Co)도 공개되었습니다.
논문 링크:https://go.hyper.ai/KN3g7
5. OpenMMReasoner: 개방적이고 일반적인 레시피로 다중 모드 추론의 경계를 넓히다
본 논문에서는 지도 미세 조정(SFT)과 강화 학습(RL)을 포함하는 완전히 투명한 2단계 다중 모드 추론 학습 체계인 OpenMMReasoner를 소개합니다. SFT 단계에서 연구진은 874,000개의 샘플을 포함하는 콜드 스타트 데이터셋을 구축하고, 엄격한 단계별 검증 메커니즘을 활용하여 추론 기능의 탄탄한 기반을 마련했습니다. 이후 강화 학습 단계에서는 여러 도메인을 포괄하는 74,000개의 샘플로 구성된 데이터셋을 활용하여 추론 기능을 더욱 강화하고 안정화함으로써 더욱 강력하고 효율적인 학습 프로세스를 달성했습니다.
논문 링크:https://go.hyper.ai/OfXKY
더 많은 AI 프런티어 논문:https://go.hyper.ai/iSYSZ
커뮤니티 기사 해석
1. 최초의 다중 모드 천문학 기반 모델인 AION-1이 탄생했습니다! UC 버클리와 다른 연구 기관들은 2억 개의 천문 대상에 대한 사전 학습을 기반으로 일반화된 다중 모드 천문학 AI 프레임워크를 성공적으로 구축했습니다.
캘리포니아 대학교 버클리, 케임브리지 대학교, 옥스퍼드 대학교를 포함한 전 세계 10개 이상의 연구 기관 팀이 협력하여 천문학을 위한 최초의 대규모 다중 모드 기반 모델군인 AION-1을 출시했습니다. 통합된 초기 융합 백본 네트워크를 통해 이미지, 스펙트럼, 별 목록 데이터와 같은 이질적인 관측 정보를 통합하고 모델링합니다. 제로샷 시나리오에서도 우수한 성능을 보일 뿐만 아니라, 선형 탐지 정확도도 특정 작업을 위해 특별히 훈련된 모델과 동등하거나 심지어 능가할 수 있습니다.
전체 보고서 보기:https://go.hyper.ai/2zA0f
2. 메이투안의 오픈소스 영상 생성 모델인 롱캣-비디오는 텍스트 기반 영상 생성, 이미지 기반 영상 생성, 영상 연속화라는 세 가지 주요 역량을 갖추고 있으며, 최상위 오픈소스 및 클로즈드소스 모델과 비교했을 때 비교가 가능합니다.
메이투안은 최신 비디오 생성 모델인 롱캣-비디오(LongCat-Video)를 오픈소스로 공개했습니다. 이 모델은 텍스트-비디오, 이미지-비디오, 비디오-연속 등 다양한 비디오 생성 작업을 통합 아키텍처를 통해 처리하는 것을 목표로 합니다. 연구팀은 일반적인 비디오 생성 작업에서 롱캣-비디오의 탁월한 성능을 바탕으로, 진정한 "월드 모델"을 구축하는 데 있어 롱캣-비디오가 확실한 발걸음이라고 생각합니다.
전체 보고서 보기:https://go.hyper.ai/b6pzF
3. 무료 CPU 사용 / 30시간 GPU 사용 크레딧 / 70GB의 초대형 스토리지, HyperAI Pro가 정식 출시되었습니다!
HyperAI는 수백 개의 머신러닝 튜토리얼을 엄선하여 Jupyter Notebooks에 통합하여 초보자와 숙련된 엔지니어 모두 고품질 오픈소스 프로젝트에 쉽게 접근하거나 완전히 새로운 모델을 만들고 배포할 수 있도록 지원합니다. HyperAI는 AI 프로젝트가 초기 아이디어 단계에서 빠른 배포 단계까지 원활하게 진행될 수 있도록 안정적인 컴퓨팅 성능을 제공합니다. 사용자의 요구를 더욱 충족하고 더욱 유연하고 저렴한 컴퓨팅 성능 요금제 옵션을 제공하기 위해 HyperAI는 HyperAI Pro 멤버십 시스템을 공식 출시했습니다.
전체 보고서 보기:https://go.hyper.ai/Oi7d3
4. 케임브리지 대학에서 혈액 세포 이미지 분류기를 개발했습니다. 확산 모델은 백혈병 탐지에 도움이 되며 임상 전문가의 역량을 능가합니다.
영국 케임브리지 대학교 연구팀은 확산 모델에 기반한 혈액 세포 이미지 분류 방법인 CytoDiffusion을 제안했습니다. 이 방법은 혈액 세포의 형태학적 분포를 충실하게 모델링하여 정확한 분류를 가능하게 하는 동시에, 강력한 이상 탐지 능력, 분포 변화에 대한 저항성, 해석 가능성, 높은 데이터 효율성, 그리고 임상 전문가를 능가하는 불확실성 정량화 능력을 갖추고 있습니다.
전체 보고서 보기:https://go.hyper.ai/QSCmq
5. 인수를 통해 회사를 키운 브로드컴의 72세 CEO는 2030년까지 계약을 연장했으며, 회사의 AI 수익을 1,200억 달러로 늘리는 것을 목표로 하고 있습니다.
혹 탄의 이력서를 살펴보면 "인수합병"은 피할 수 없는 주제입니다. 하지만 그를 단순히 기업 투자 관점에서만 보는 것은 너무 편협하고 단순합니다. 수익과 매출 계산을 넘어서는 그의 모든 움직임은 회사를 핵심 기업으로 점진적으로 끌어올립니다. 근본적인 트렌드 예측은 훨씬 더 중요합니다.
전체 보고서 보기:https://go.hyper.ai/6lPG5
인기 백과사전 기사
1. 달-이
2. 하이퍼네트워크
3. 파레토 전선
4. 양방향 장단기 메모리(Bi-LSTM)
5. 상호 순위 융합
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.
12월 마감일이 있는 최고 컨퍼런스

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1800개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 600개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함
* 200개 이상의 AI4Science 논문 사례 해석
* 600개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.








