HyperAIHyperAI

Command Palette

Search for a command to run...

Open-AutoGLM의 접근성이 낮은 시험: 화면 이해와 자동 실행을 결합한 지능형 에이전트 경험; Spatial-SSRL-81k: 공간 인식을 위한 자기 지도 학습 기반 개선 경로 구축.

Featured Image

"두바오 모바일"이 트렌드로 떠오르고 있다는 논의가 한창이던 시절,Zhipu AI는 자사의 모바일 지능형 비서 프레임워크인 Open-AutoGLM을 오픈소스로 공개했다고 발표했습니다.이를 통해 화면 콘텐츠에 대한 멀티모달 이해 및 자동화된 작동이 가능해집니다.

기존의 모바일 자동화 도구와는 달리,폰 에이전트는 시각적 언어 모델을 사용하여 화면 콘텐츠에 대한 심층적인 의미론적 이해를 달성하고, 지능형 계획 기능을 결합하여 운영 프로세스를 자동으로 생성하고 실행합니다.이 시스템은 ADB(Android Debug Bridge)를 통해 기기를 제어합니다. 사용자는 "샤오홍슈를 열어서 음식을 검색해 줘"와 같이 자연어로 원하는 바를 설명하기만 하면 됩니다. 그러면 폰 에이전트가 자동으로 의도를 분석하고 현재 인터페이스를 파악하여 다음 동작을 계획하고 전체 과정을 완료합니다.

보안 및 제어 측면에서, 이 시스템은 민감한 작업 확인 메커니즘을 갖추고 있으며 로그인, 결제 또는 인증 코드 입력과 같이 수동 개입이 필요한 시나리오에서 사용자 인계 기능을 지원하여 안전하고 신뢰할 수 있는 사용자 경험을 보장합니다. 또한, Phone Agent는 원격 ADB 디버깅 기능을 제공하며 Wi-Fi 또는 모바일 네트워크를 통한 장치 연결을 지원하여 개발자와 고급 사용자에게 유연한 원격 제어 및 실시간 디버깅 지원을 제공합니다.

현재,이 프레임워크를 기반으로 구현된 Open-AutoGLM은 위챗, 타오바오, 샤오홍슈를 포함한 50개 이상의 주요 중국 애플리케이션에 적용되었습니다.사회적 상호작용과 전자상거래 쇼핑부터 콘텐츠 검색에 이르기까지 다양한 일상 작업을 처리할 수 있는 이 기술은 점차 의류, 식품, 주택, 교통 등 사용자의 삶의 모든 측면을 아우르는 지능형 비서로 진화하고 있습니다.

HyperAI 웹사이트에서 "Open-AutoGLM: 모바일 기기를 위한 스마트 어시스턴트"를 새롭게 선보입니다. 지금 바로 사용해 보세요!

온라인 사용:https://go.hyper.ai/QwvOU

12월 8일부터 12월 12일까지 hyper.ai 공식 웹사이트의 주요 업데이트 사항을 간략하게 살펴보겠습니다.

* 고품질 공개 데이터 세트: 10

* 고품질 튜토리얼 선택: 5개

* 이번 주 추천 논문 : 5

* 커뮤니티 기사 해석 : 5개 기사

* 인기 백과사전 항목: 5개

1월 마감인 주요 학술대회: 11개

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. 다단계 이벤트 시각화 생성 데이터셋 구상

Envision은 상하이 인공지능 연구소에서 공개한 다중 이미지-텍스트 쌍 데이터셋으로, 실제 사건에서 인과관계를 이해하고 다단계 서사를 생성하는 모델의 능력을 테스트하기 위해 설계되었습니다. 이 데이터셋은 1,000개의 사건 시퀀스와 4,000개의 4단계 텍스트 프롬프트로 구성되어 있으며, 자연과학 및 인문학/역사 등 6개 주요 분야를 다룹니다. 사건 자료는 전문가들이 선정한 교과서와 온라인 자료에서 가져왔으며, GPT-4o를 통해 명확한 인과관계와 점진적으로 전개되는 단계를 가진 서사 프롬프트로 생성 및 정제되었습니다.

직접 사용:https://go.hyper.ai/xD4j6

2. DetectiumFire 다중 모드 화재 이해 데이터 세트

툴레인 대학교와 알토 대학교가 공동으로 개발한 DetectiumFire 데이터셋은 화염 감지, 시각적 추론 및 멀티모달 생성 작업을 위해 설계되었습니다. 이 데이터셋은 컴퓨터 비전 및 비전-언어 모델에서 화재 장면을 위한 통합된 학습 및 평가 리소스를 제공하는 것을 목표로 NeurIPS 2025 데이터셋 및 벤치마크 트랙에 포함되었습니다. DetectiumFire 데이터셋에는 145,000개 이상의 고품질 실제 화재 이미지와 25,000개의 화재 관련 비디오가 포함되어 있습니다.

직접 사용:https://go.hyper.ai/7Z92Z

데이터 세트 예제

3. Care-PD 파킨슨병 3D 보행 평가 데이터 세트

토론토 대학교가 벡터 연구소, KITE 연구소-UHN 및 기타 기관과 협력하여 공개한 CARE-PD는 현재 파킨슨병 환자를 위한 최대 규모의 공개 3D 보행 메쉬 데이터셋입니다. NeurIPS 2025 데이터셋 및 벤치마크로 선정된 이 데이터셋은 임상 점수 예측, 파킨슨병 보행 표현 학습 및 통합된 기관 간 분석을 위한 고품질 데이터 기반을 제공하는 것을 목표로 합니다. 이 데이터셋은 8개 임상 기관의 9개 독립 코호트에서 수집된 362명의 보행 기록을 포함합니다. 모든 보행 비디오 및 모션 캡처 데이터는 균일하게 처리되어 익명화된 SMPL 3D 인간 보행 메쉬로 변환되었습니다.

직접 사용:https://go.hyper.ai/CH7Oi

4. PolyMath 다국어 수학적 추론 벤치마크 데이터셋

PolyMath는 알리바바의 첸원(Qianwen) 팀이 상하이 자오퉁 대학교와 협력하여 개발한 다국어 수학적 추론 평가 데이터셋입니다. NeurIPS 2025 데이터셋 및 벤치마크로 선정된 이 데이터셋은 다국어 환경에서 대규모 언어 모델의 수학적 이해력, 추론 깊이 및 언어 간 일관성 성능을 체계적으로 평가하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/VM5XK

5. VOccl3D 3D 인체 가림 비디오 데이터셋

VOccl3D는 캘리포니아 대학교에서 공개한 대규모 합성 데이터셋으로, 복잡하게 가려진 장면에서의 3D 인간 인식에 초점을 맞추고 있습니다. 이 데이터셋은 인간 자세 추정, 재구성 및 다중 모달 인식 작업에 보다 현실적인 벤치마크를 제공하는 것을 목표로 합니다. VOccl3D 데이터셋은 배경 장면, 인간의 동작 및 다양한 질감으로 구성된 25만 개 이상의 이미지와 약 400개의 비디오 시퀀스를 포함합니다.

직접 사용:https://go.hyper.ai/vBFc2

데이터 세트 예제

6. Spatial-SSRL-81k 공간 인식 자기 지도 학습 데이터셋

Spatial-SSRL-81k는 상하이 인공지능 연구소가 상하이 자오퉁 대학교, 홍콩중문대학교 등과 협력하여 개발한 공간 이해 및 공간 추론을 위한 자기지도 학습 방식의 비전-언어 데이터셋입니다. 이 데이터셋은 수동 주석 작업 없이 대규모 모델에 공간 인식 기능을 제공하여 멀티모달 시나리오에서 모델의 추론 및 일반화 성능을 향상시키는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/AfHSW

데이터 세트 예제

7. WenetSpeech-Chuan (쓰촨-충칭 방언 음성 데이터셋)

WenetSpeech-Chuan은 서북공업대학교가 Hillbeike, 중국 통신 인공지능 연구소 등과 협력하여 공개한 대규모 쓰촨 및 충칭 방언 음성 데이터셋입니다. 이 데이터셋은 9가지 실제 시나리오를 포함하며, 그중 52,831개의 TP3T는 짧은 동영상입니다. 나머지는 엔터테인먼트, 라이브 스트리밍, 오디오북, 다큐멘터리, 인터뷰, 뉴스, 낭독, 드라마 등 다양하고 현실적인 음성 분포를 보여줍니다.

직접 사용:https://go.hyper.ai/dFlE2

데이터셋 분포

8. PhysDriver 생리적 테스트 데이터 세트

PhysDrive는 홍콩과학기술대학교(광저우), 홍콩과학기술대학교, 칭화대학교 등의 기관에서 개발한, 실제 주행 환경에서 차량 내 비접촉식 생리 측정을 위한 최초의 대규모 멀티모달 데이터셋입니다. NeurIPS 2025 데이터셋 및 벤치마크로 선정되었으며, 운전자 상태 모니터링, 스마트 콕핏 시스템, 멀티모달 생리 인식 방법 연구 및 평가를 지원하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/4qz9T

데이터셋 구축 과정

9. MMSVGBench 멀티모달 벡터 그래픽 생성 벤치마크 데이터셋

MMSVG-Bench는 푸단대학교와 StepFun이 공동으로 개발한 멀티모달 SVG 생성 작업을 위한 종합 벤치마크입니다. NeurIPS 2025 데이터셋 및 벤치마크로 선정되었으며, 통일되고 개방적이며 표준화된 테스트 세트가 부족한 벡터 그래픽 생성 분야의 공백을 메우는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/WiZCR

10. PolypSense3D 용종 크기 인식 데이터셋

PolypSense3D는 항저우 사범대학교가 덴마크 공과대학교, 호하이대학교 및 기타 기관과 협력하여 개발한, 깊이 감지 기반 용종 크기 측정 작업에 특화된 다중 소스 벤치마크 데이터셋입니다. NeurIPS 2025에 선정된 이 데이터셋은 용종 탐지, 깊이 추정, 크기 측정 및 시뮬레이션에서 실제 환경으로의 전이 학습을 위한 고품질 학습 및 평가 리소스를 제공하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/SZnu6

선택된 공개 튜토리얼

1. Dia2-TTS: 실시간 음성 합성 서비스

Dia2-TTS는 nari-labs 팀에서 개발한 대규모 음성 생성 모델 Dia2(Dia2-2B)를 기반으로 구축된 실시간 음성 합성 서비스입니다. 다중 턴 대화 스크립트 입력, 이중 역할 음성 안내(접두사 음성), 다중 매개변수 제어 샘플링을 지원합니다. Grado를 통해 고품질 대화형 음성 합성을 위한 완벽한 웹 기반 대화형 인터페이스를 제공합니다. 이 모델은 연속적인 다중 턴 대화 스크립트를 직접 입력받아 자연스럽고 일관성 있는 고품질 음성을 생성할 수 있어 가상 고객 서비스, 음성 비서, AI 더빙, 단편 드라마 제작 등의 응용 분야에 적합합니다.

온라인으로 실행:https://go.hyper.ai/Qbfni

효과 예시

2. Open-AutoGLM: 모바일 기기용 스마트 어시스턴트

Open-AutoGLM은 Zhipu AI에서 AutoGLM을 기반으로 개발한 모바일 지능형 어시스턴트 프레임워크입니다. 이 프레임워크는 다양한 모달 방식으로 모바일 화면 콘텐츠를 이해하고 자동화된 작업을 통해 사용자가 작업을 완료하도록 지원합니다. 기존의 모바일 자동화 도구와 달리, Phone Agent는 화면 인식을 위한 시각적 언어 모델과 지능형 계획 기능을 결합하여 작업 프로세스를 자동으로 생성하고 실행합니다.

온라인으로 실행:https://go.hyper.ai/QwvOU

3. VibeVoice-Realtime TTS: 실시간 음성 합성 서비스

VibeVoice-Realtime TTS는 Microsoft Research 팀에서 발표한 VibeVoice-Realtime-0.5B 스트리밍 음성 합성 모델을 기반으로 구축된 고품질 실시간 텍스트 음성 변환(TTS) 시스템입니다. 이 시스템은 Grado 웹 플랫폼에서 다중 화자 음성 생성, 저지연 실시간 추론 및 대화형 시각화를 지원합니다.

온라인으로 실행:https://go.hyper.ai/RviLs

효과 예시

4. Z-Image-Turbo: 고효율 6B 파라미터 이미지 생성 모델

Z-Image-Turbo는 알리바바의 통이첸원(Tongyi Qianwen) 팀에서 개발한 차세대 고효율 이미지 생성 모델입니다. 단 6바이트의 파라미터만으로 20바이트 이상의 파라미터를 사용하는 플래그십 오픈소스 모델과 견줄 만한 성능을 구현하며, 특히 고화질의 사실적인 인물 사진 생성에 탁월합니다.

온라인으로 실행:https://go.hyper.ai/R8BJF

효과 예시

5. Ovis-Image: 고품질 이미지 생성 모델

Ovis-Image는 AIDC-AI 팀에서 발표한 고품질 텍스트-이미지(T2I) 생성 모델인 Ovis-Image-7B를 기반으로 구축된 고품질 텍스트-이미지 생성 모델 시스템입니다. 이 시스템은 멀티스케일 트랜스포머 인코더와 자기회귀 생성 아키텍처를 사용하여 고해상도 이미지 생성, 세부 표현 및 다양한 스타일 적응에서 탁월한 성능을 보여줍니다.

온라인으로 실행:https://go.hyper.ai/NoaDw

효과 예시

이번 주 논문 추천

1. Wan-Move: 잠재 궤적 안내를 통한 모션 제어 가능 비디오 생성

본 논문에서는 동영상 생성 모델에 모션 제어 기능을 도입하는 간단하고 확장 가능한 프레임워크인 Wan-Move를 제안합니다. 기존의 모션 제어 방식들은 종종 세밀하지 못한 제어와 제한된 확장성으로 인해 실제 응용 분야의 요구 사항을 충족하지 못하는 결과물을 생성하는 문제점을 가지고 있습니다. Wan-Move는 이러한 문제점을 해결하기 위해 고정밀, 고품질의 모션 제어를 구현합니다. Wan-Move의 핵심 아이디어는 원본의 조건부 특징에 모션 인식 기능을 직접 부여하여 동영상 생성을 유도하는 것입니다.

논문 링크:https://go.hyper.ai/h3uaG

2. 선구자: WebGPU 기반 가우시안 스플래팅 플랫폼으로 구축된 세계 모델 캐리어

본 논문에서는 다양한 가우시안 래스터 및 메시 유형의 실시간 렌더링을 지원하는 오픈 소스 기반의 웹 중심 실시간 렌더링 플랫폼인 Visionary를 제안합니다. 고성능 WebGPU 렌더링 엔진과 프레임 단위로 실행되는 ONNX 추론 메커니즘을 결합하여, 이 플랫폼은 경량 설계와 "클릭 한 번으로 실행" 가능한 브라우저 환경을 유지하면서 동적 신경 처리 기능을 구현합니다.

논문 링크:https://go.hyper.ai/NaBv3

3. 네이티브 병렬 추론기: 자체 정제 강화 학습을 통한 병렬 추론

본 논문에서는 대규모 언어 모델(LLM)이 진정한 병렬 추론 능력을 자율적으로 발전시킬 수 있도록 하는 교사 개입이 필요 없는 프레임워크인 네이티브 병렬 추론기(NPR)를 제안합니다. 8가지 추론 벤치마크 테스트에서 Qwen3-4B 모델로 학습된 NPR은 최대 24.51 TP3T의 성능 향상과 최대 4.6배의 추론 속도 증가를 달성했습니다.

논문 링크:https://go.hyper.ai/KWiZQ

4. TwinFlow: 자기 적대적 흐름을 이용한 대규모 모델에서의 원스텝 생성 구현

본 논문에서는 생성 모델 학습 프레임워크인 TwinFlow를 제안합니다. 이 방법은 고정된 사전 학습된 교사 모델에 의존하지 않고, 학습 과정에서 표준적인 적대적 네트워크를 사용하지 않으므로, 대규모 고효율 생성 모델 구축에 특히 적합합니다. 텍스트-이미지 생성 작업에서, 이 프레임워크는 단 한 번의 함수 평가(1-NFE)만으로 GenEval 점수 0.83을 달성하여, SANA-Sprint(GAN 손실 기반 프레임워크) 및 RCGM(일관성 메커니즘 기반 프레임워크)과 같은 강력한 기준 모델들을 크게 능가합니다.

논문 링크:https://go.hyper.ai/l1nUp

5. 현실을 넘어서: 장기 컨텍스트 LLM을 위한 회전 위치 임베딩의 가상적 확장

복소 평면에서 쿼리 벡터와 키 벡터를 회전시키는 회전 위치 인코딩(RoPE)은 대규모 언어 모델(LLM)에서 순서 정보를 인코딩하는 표준 방법으로 자리 잡았습니다. 그러나 기존의 표준 구현 방식은 복소수 내적의 실수 부분만을 사용하여 어텐션 점수를 계산하고, 중요한 위상 정보를 포함하는 허수 부분을 무시합니다. 이로 인해 장거리 의존성을 모델링할 때 중요한 상대적 관계 정보가 손실될 수 있습니다. 본 논문에서는 기존에 무시되었던 허수 부분 정보를 다시 도입하는 확장 방법을 제안합니다. 이 방법은 완전한 복소수 표현을 활용하여 두 가지 구성 요소로 이루어진 어텐션 점수를 생성합니다.

논문 링크:https://go.hyper.ai/iGTw6

더 많은 AI 프런티어 논문:https://go.hyper.ai/iSYSZ

커뮤니티 기사 해석

1. 200억 달러 규모의 도박! xAI는 머스크의 막대한 투자를 OpenAI에 걸었지만, 그 미래 상업적 성공 가능성은 여전히 가장 큰 의문점으로 남아 있습니다.

2025년, xAI는 머스크의 강력한 추진력 덕분에 전례 없는 자본 유입을 얻었지만, 상용화는 여전히 X와 테슬라 생태계에 크게 의존했고, 현금 흐름과 규제 압력은 동시에 증가했습니다. 그록의 "약한 제휴" 전략은 점점 더 엄격해지는 글로벌 규제 환경 속에서 위험해졌고, X와의 긴밀한 관계 또한 독립적인 성장 잠재력을 약화시켰습니다. 비용 불균형, 제한적인 비즈니스 모델, 그리고 규제 마찰에 직면한 xAI의 미래는 거대 기업과의 경쟁, 정책 변화, 그리고 머스크의 개인적인 의지 사이에서 여전히 불확실한 상태입니다.

전체 보고서 보기:https://go.hyper.ai/NmLi4

2. 전체 일정 | 상하이 혁신 연구소, TileAI, 화웨이, Advanced Compiler Lab 및 AI9Stars가 상하이에 모여 통신 사업자 최적화의 전 과정을 심층 분석합니다.

제8회 AI 컴파일러 기술 세미나가 12월 27일 상하이 혁신 아카데미에서 개최됩니다. 이번 세미나에는 상하이 혁신 아카데미, TileAI 커뮤니티, 화웨이 하이실리콘, Advanced Compiler Lab, AI9Stars 커뮤니티의 전문가들이 참여하여 소프트웨어 스택 설계 및 연산자 개발부터 성능 최적화에 이르기까지 기술 전반에 걸친 통찰력을 공유할 예정입니다. TVM의 생태계 간 상호 운용성, PyPTO 융합 연산자 최적화, TileRT를 활용한 저지연 시스템, 다양한 아키텍처에서의 Triton 핵심 최적화 기법, AutoTriton 연산자 최적화 등 이론부터 구현까지 전 과정을 다룰 것입니다.

전체 보고서 보기:https://go.hyper.ai/xpwkk

3. 온라인 튜토리얼 | SAM 3, 2배 성능 향상으로 힌트 기반 개념 분할 구현, 100개 객체 탐지 30밀리초 처리

SAM 및 SAM 2 모델은 이미지 분할 분야에서 상당한 발전을 이루었지만, 입력 콘텐츠 내의 모든 개념 인스턴스를 자동으로 찾아 분할하는 데는 아직 한계가 있었습니다. 이러한 한계를 극복하기 위해 Meta는 최신 버전인 SAM 3을 출시했습니다. 이 새로운 버전은 시각적 단서 기반 분할(PVS) 분야에서 이전 버전보다 훨씬 뛰어난 성능을 보여줄 뿐만 아니라, 개념 단서 기반 분할(PCS) 작업에서도 새로운 기준을 제시합니다.

전체 보고서 보기:https://go.hyper.ai/YfmLc

4. 카네기 연구소의 학제간 연구팀은 406개의 샘플을 기반으로 한 랜덤 포레스트 모델을 사용하여 33억 년 전 생명체의 흔적을 성공적으로 포착했습니다.

미국의 카네기 과학 연구소는 전 세계 여러 대학과 협력하여 열분해 가스 크로마토그래피-질량 분석법과 지도 학습을 결합한 "기술 융합" 솔루션을 개발하기 위한 학제 간 팀을 구성했습니다. 이 솔루션은 무질서한 분자 조각 속에서 고대 생명의 흔적을 포착할 수 있습니다.

전체 보고서 보기:https://go.hyper.ai/CNPMQ

5. 행사 요약 | 베이징대학교, 칭화대학교, 질리즈, 문비트가 오픈소스, 비디오 생성, 시각적 이해, 벡터 데이터베이스, AI 네이티브 프로그래밍 언어에 대해 논의했습니다.

HyperAI는 COSCon'25의 공동 주최 커뮤니티로서 12월 7일에 "산업-연구 오픈 소스 협력 포럼"을 개최했습니다. 이 글은 네 명의 발표자가 진행한 심층 발표의 핵심 내용을 요약한 것입니다. 추후 전체 발표 영상도 공유할 예정이니 기대해 주세요!

전체 보고서 보기:https://go.hyper.ai/XrCEl

인기 백과사전 기사

1. 양방향 장단기 메모리(Bi-LSTM)

2. 실제값

3. 레이아웃 제어 (레이아웃-이미지 변환)

4. 구현된 내비게이션

5. 초당 프레임 수(FPS)

다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

https://go.hyper.ai/wiki

최고 컨퍼런스 1월 마감일

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event

위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!

다음주에 뵙겠습니다!

HyperAI 소개

HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.

* 1800개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공

* 600개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함

* 200개 이상의 AI4Science 논문 사례 해석

* 600개 이상의 관련 용어 검색 지원

* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅

학습 여정을 시작하려면 공식 웹사이트를 방문하세요.

https://hyper.ai