MiniCPM-V 4.0은 성능 면에서 GPT-4.1-mini를 능가하며, 디바이스 내 이미지 모델링에서 새로운 차원의 성과를 달성했습니다. HelpSteer3는 AI의 반응을 인간의 사고방식에 더욱 가깝게 만듭니다.

멀티모달 대규모 언어 모델(MLLM)의 기술적 발전은 AI 생태계 발전을 주도하고 있습니다. 휴대폰이나 태블릿과 같은 모바일 기기에서의 실시간 상호작용에 대한 사용자 요구가 크게 증가하고 있습니다. 그러나 기존의 대규모 모델은 뛰어난 성능을 제공하지만, 매개변수가 너무 많아 모바일 및 오프라인 환경에서 기기에 배포하고 운영하기가 어렵습니다.일부 복잡한 작업에 관련된 대규모 엣지 모델은 여전히 클라우드 측 지원과 최적화가 필요하며, 엣지 성능과 멀티모달 기능 측면에서 개선의 여지가 여전히 있습니다.
이러한 맥락에서,청화대학교 자연어처리연구실과 미안비인텔리전스가 공동으로 효율적인 대규모 엔드투엔드 모델 MiniCPM-V 4.0을 출시했습니다.이 모델은 이전 모델인 MiniCPM-V 2.6의 강력한 단일 이미지, 다중 이미지 및 비디오 이해 성능을 계승할 뿐만 아니라, OpenCompass 평가에서 GPT-4.1-mini-20250414, Qwen2.5-VL-3B-Instruct, InternVL2.5-8B와 같은 주류 모델의 이미지 이해 성능을 능가합니다. 또한 매개변수를 절반으로 줄여 4.1B로 배포 임계값을 크게 낮췄습니다.연구팀은 또한 iPhone과 iPad용 iOS 애플리케이션을 동시에 오픈 소스화하여 사용자가 휴대폰에서 "클라우드 수준의 기능과 엣지 수준의 효율성"을 경험할 수 있도록 했습니다.
엔드-사이드 MLLM에 대한 중요한 탐구로서, MiniCPM-V 4.0은 터미널의 가벼운 배포를 촉진하여 더 폭넓은 개발 공간을 열어주고 음성 및 비디오와 같은 다른 모달리티를 에지 장치로 확장하는 데 대한 좋은 사례를 제공합니다.
현재 HyperAI 공식 웹사이트에서 "MiniCPM-V4.0: 매우 효율적인 대규모 온디바이스 모델"을 출시했습니다. 지금 바로 사용해 보세요!
온라인 사용:https://go.hyper.ai/pZ5aZ
8월 11일부터 8월 15일까지 hyper.ai 공식 웹사이트 업데이트에 대한 간략한 개요를 소개합니다.
* 고품질 공개 데이터 세트: 10
* 고품질 튜토리얼 선택: 6개
* 이번 주 추천 논문 : 5
* 커뮤니티 기사 해석 : 5개 기사
* 인기 백과사전 항목: 5개
* 8월 마감일 상위 컨퍼런스: 2
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. NuminaMath-LEAN 수학 문제 데이터 세트
NuminaMath-LEAN은 Numina와 Kimi 팀이 공동으로 개발한 수학 문제 데이터셋입니다. 이 데이터셋은 자동화된 정리 증명 모델의 학습 및 평가를 위해 수동으로 주석이 추가된 정형화된 명제와 증명을 제공하는 것을 목표로 합니다. 이 데이터셋에는 국제수학올림피아드(IMO)와 미국수학올림피아드(USAMO)와 같은 권위 있는 대회의 문제를 포함하여 10만 개의 수학 경시대회 문제가 포함되어 있습니다.
직접 사용:https://go.hyper.ai/YSJM2
Trendyol은 방어적 사이버 보안을 위한 고급 AI 비서를 훈련하도록 설계된 보안 명령어 튜닝 데이터셋입니다. 이 데이터셋에는 클라우드 네이티브 위협, AI/ML 보안 및 기타 최신 보안 과제를 포함하여 200개 이상의 사이버 보안 영역을 포괄하는 53,202개의 명령어 튜닝 사례가 포함되어 있습니다. 또한, 방어적 보안 AI 모델을 훈련하기 위한 고품질 코퍼스를 제공합니다.
직접 사용:https://go.hyper.ai/hfxLQ
InteriorGS는 기존 실내 장면 데이터셋의 기하학적 완전성, 의미론적 주석, 그리고 공간적 상호작용 기능 측면에서 한계를 극복하도록 설계된 3D 실내 장면 데이터셋입니다. 이 데이터셋은 고품질 3D 가우시안 산란 표현뿐만 아니라 인스턴스 수준의 의미론적 경계 상자와 에이전트의 접근 가능한 영역을 나타내는 점유 맵을 제공합니다.
직접 사용:https://go.hyper.ai/8pxTq

4. CognitiveKernel-Pro-Query 텍스트 생성 벤치마크 데이터 세트
CognitiveKernel-Pro-Query는 텐센트에서 출시한 텍스트 생성 벤치마크 데이터셋으로, 장문 텍스트 처리 시 모델의 성능을 평가하도록 설계되었습니다. 이 데이터셋은 뉴스 기사, 기술 문서, 서적 등 다양한 응용 분야를 포괄하는 10,000개 이상의 장문 텍스트를 포함하고 있습니다.
직접 사용:https://go.hyper.ai/onijU
위성 임베딩은 구글에서 공개한 지구 관측 데이터셋입니다. 다양한 출처의 공간적, 시간적, 측정적 맥락을 통합하여 매우 다재다능한 지공간적 표현을 제공하고, 지역적 규모에서 전 지구적 규모에 이르는 지도와 모니터링 시스템을 정확하고 효율적으로 생성하는 것을 목표로 합니다.
직접 사용:https://go.hyper.ai/Yfw8K

6. LongText-Bench 텍스트 이해 벤치마크 데이터 세트
LongText-Bench는 중국어와 영어의 긴 문장을 정확하게 이해하는 모델의 능력을 평가하도록 설계된 텍스트 이해 벤치마크 데이터셋입니다. 이 데이터셋은 도로 표지판, 레이블이 있는 물체, 인쇄물, 웹 페이지, 슬라이드, 포스터, 헤드라인, 대화 등 8가지 시나리오를 포괄하는 긴 텍스트 렌더링 작업을 평가하기 위한 160개의 프롬프트를 포함합니다.
직접 사용:https://go.hyper.ai/k6Kj8
nuPlan은 Motional에서 출시한 자율주행 데이터셋입니다. 머신러닝 기반 플래너 개발 및 훈련 프레임워크, 경량 폐루프 시뮬레이터, 전용 모션 플래닝 지표, 그리고 결과 시각화를 위한 대화형 도구를 제공하는 것을 목표로 합니다. 이 데이터셋은 미국과 아시아 4개 도시(보스턴, 피츠버그, 라스베이거스, 싱가포르)에서 수집된 1,200시간 분량의 인간 주행 데이터를 포함하고 있습니다.
직접 사용:https://go.hyper.ai/BcEC8

HelpSteer3는 NVIDIA에서 출시한 인간 선호도 데이터셋입니다. 인간의 피드백과 강화 학습 기법을 통해 사용자 프롬프트에 대한 모델의 반응성을 향상시키는 것을 목표로 합니다. 이 데이터셋은 40,476개의 선호도 예시를 포함하고 있으며, 각 예시에는 도메인, 언어, 맥락, 두 개의 답변, 두 답변 간의 전반적인 선호도 평가, 그리고 최대 3명의 애노테이터가 제공한 개별 선호도 평가가 포함됩니다.
직접 사용:https://go.hyper.ai/hByqe
NHR-Edit은 다양한 자연 편집 지침을 따를 수 있는 일반 이미지 편집 모델의 학습을 지원하도록 설계된 이미지 편집 데이터세트입니다. 이 데이터세트는 286,608개의 고유한 원본 이미지와 358,463개의 이미지 편집 트리플릿을 포함합니다. 각 예시에는 편집 유형, 스타일, 이미지 해상도와 같은 추가 메타데이터가 포함되어 있어 세밀하고 제어 가능한 이미지 편집 모델을 학습하는 데 적합합니다.
직접 사용:https://go.hyper.ai/LZtkd

A-WetDri는 악천후 조건에서 자율주행 인지 모델의 견고성과 일반화를 향상시키기 위해 설계된 악천후 주행 데이터셋입니다. 이 데이터셋은 네 가지 환경 시나리오(비, 안개, 밤, 눈, 맑은 날씨)와 다양한 객체 범주(자동차, 트럭, 자전거, 오토바이, 보행자, 교통 표지판 및 신호등)에 대한 42,390개의 샘플을 포함합니다.
직접 사용:https://go.hyper.ai/W2XE7

선택된 공개 튜토리얼
1. MiniCPM-V4.0: 매우 효율적인 대규모 엔드투엔드 모델
MiniCPM-V 4.0은 칭화대학교 자연어 처리 연구실과 Mianbi Intelligence가 오픈소스로 개발한 매우 효율적인 대규모 온디바이스 모델입니다. OpenCompass 테스트에서 MiniCPM-V 4.0은 이미지 이해 성능 면에서 GPT-4.1-mini-20250414, Qwen2.5-VL-3B-Instruct, InternVL2.5-8B를 능가했습니다.
온라인으로 실행:https://go.hyper.ai/pZ5aZ

2. 탐색적 데이터 분석 | XGBoost의 SHAP 값 설명
이 튜토리얼은 "최적의 비료 예측"이라는 다중 분류 문제를 중심으로 진행되며, 데이터 탐색부터 모델 학습, 해석 가능한 분석까지 전체적인 프로세스를 완벽하게 제시합니다.
온라인으로 실행:https://go.hyper.ai/41z6K
dots.ocr은 샤오홍슈(Xiaohongshu)의 hi 랩에서 개발한 다국어 문서 레이아웃 파싱 모델입니다. 17억 개의 매개변수를 가진 시각 언어 모델(VLM)을 기반으로 레이아웃 감지와 콘텐츠 인식을 통합하여 정확한 읽기 순서를 유지합니다. 이 모델은 간단하고 효율적인 아키텍처를 제공하며, 입력 프롬프트만 변경하면 작업을 전환할 수 있습니다. 빠른 추론 속도 덕분에 다양한 문서 파싱 시나리오에 적합합니다.
온라인으로 실행:https://go.hyper.ai/JewLR

4. vLLM+Open-WebUI를 사용하여 Phi-4-mini-flash 추론 배포
Phi-4-mini-flash-reasoning은 Microsoft 팀에서 출시한 경량 오픈소스 모델입니다. 합성 데이터를 기반으로 구축되었으며, 고품질의 고밀도 추론 데이터에 중점을 두고 있으며, 더욱 진보된 수학적 추론 기능을 구현하도록 세부적으로 조정되었습니다. Phi-4 모델군에 속하는 이 모델은 64K 토큰 컨텍스트 길이를 지원하고, 어텐션 메커니즘과 상태 공간 모델(SSM)을 결합한 디코더-하이브리드-디코더 아키텍처를 활용하여 탁월한 추론 효율성을 달성합니다.
온라인으로 실행:https://go.hyper.ai/ENYcL

5. llama.cpp+Open-WebUI 배포 gpt-oss-120b
gpt-oss-120b는 OpenAI에서 공개한 오픈소스 추론 모델로, 강력한 추론, 에이전트 기반 작업 및 다양한 개발 시나리오를 위해 설계되었습니다. MoE 아키텍처를 기반으로 하는 이 모델은 128k의 컨텍스트 길이를 지원하며 도구 호출, 퓨샷 함수 호출, 연쇄 추론 및 상태 질의응답에 탁월합니다.
온라인으로 실행:https://go.hyper.ai/3BnDy

6. llama.cpp+Open-WebUI 배포 gpt-oss-20b
gpt-oss-20b는 OpenAI에서 출시한 오픈소스 추론 모델입니다. 저지연, 로컬 또는 특수 수직 애플리케이션에 적합합니다. 소비자용 하드웨어(예: 노트북 및 엣지 기기)에서 원활하게 실행되며 o3‑mini와 유사한 성능을 제공합니다.
온라인으로 실행:https://go.hyper.ai/28FXJ

이번 주 논문 추천
1. ReasonRank: 강력한 추론 능력으로 구절 순위를 강화합니다.
고추론 집약적 학습 데이터의 부족으로 인해 기존 리랭커는 여러 복잡한 순위 결정 시나리오에서 성능이 저하되며, 순위 결정 기능은 아직 개발 초기 단계에 있습니다. 본 논문에서는 자동화된 고추론 집약적 학습 데이터 합성 프레임워크를 최초로 제안합니다. 이 프레임워크는 여러 도메인에서 학습 쿼리와 문단을 추출하고 DeepSeek-R1 모델을 활용하여 고품질 학습 레이블을 생성합니다. 또한, 데이터 품질을 보장하기 위해 자체적으로 일관된 데이터 필터링 메커니즘을 설계했습니다.
논문 링크:https://go.hyper.ai/nmaou
2. WideSearch: 에이전트 기반 광범위한 정보 탐색 벤치마킹
본 논문에서는 대규모 데이터 수집 작업에서 에이전트의 신뢰도를 평가하기 위해 설계된 새로운 벤치마크인 WideSearch를 소개합니다. WideSearch는 실제 사용자 질의를 기반으로 15개 이상의 다양한 도메인에서 엄선된 200개의 질문으로 구성됩니다. 각 작업은 에이전트가 방대한 양의 원자적 정보를 수집하고 이를 명확하게 구조화된 출력으로 구성해야 합니다.
논문 링크:https://go.hyper.ai/87pbh
3. WebWatcher: 시각-언어 심층 연구 에이전트의 새로운 지평을 열다
본 논문에서는 향상된 시각-언어 추론 기능을 갖춘 다중 모드 심층 연구 에이전트인 WebWatcher를 제시합니다. 이 에이전트는 고품질 합성 다중 모드 궤적을 통해 효율적인 콜드 스타트 학습을 달성하고, 심층 추론을 위한 여러 도구를 결합하며, 강화 학습을 통해 일반화를 더욱 향상시킵니다.
논문 링크:https://go.hyper.ai/n9IKZ
4. Matrix-3D: 전방위 탐색 가능한 3D 세계 생성
본 논문은 파노라마 표현을 사용하여 대규모의 완전 탐색 가능한 3D 세계를 생성하는 Matrix-3D 프레임워크를 제안합니다. 이 프레임워크는 조건부 비디오 생성과 파노라마 3D 재구성 기술을 결합합니다. 연구진은 먼저 장면 메시 렌더링을 조건으로 하는 궤적 기반 파노라마 비디오 확산 모델을 학습시켜 기하학적으로 일관된 고품질 장면 비디오 생성을 달성했습니다.
논문 링크:https://go.hyper.ai/ojvKE
5. Voost: 양방향 가상 체험 및 체험을 위한 통합적이고 확장 가능한 확산 변환기
가상 시착은 대상 의류를 착용한 사람의 사실적인 이미지를 생성하는 것을 목표로 하지만, 의류와 인체 간의 대응 관계를 정확하게 모델링하는 것은 여전히 어려운 과제이며, 특히 자세와 외모에 변화가 있는 경우 더욱 그렇습니다. 본 논문에서는 단일 확산 변환기를 통해 가상 시착 및 시착 작업을 공동으로 학습하는 통합적이고 확장 가능한 프레임워크인 Voost를 제안합니다.
논문 링크:https://go.hyper.ai/qCCaH
더 많은 AI 프런티어 논문:https://go.hyper.ai/iSYSZ
커뮤니티 기사 해석
1. Google DeepMind는 약 15,000종을 포괄하는 Perch 2.0을 출시하여 생물음향 분류 및 감지 분야의 최첨단 기술을 새롭게 선보였습니다.
Google DeepMind와 Google Research가 공동으로 Perch 2.0을 출시하며 생물음향 연구를 한 단계 더 발전시켰습니다. 이전 버전과 달리 Perch 2.0은 핵심 학습 과제로 종 분류에 집중합니다. 비조류 집단의 학습 데이터를 더 많이 포함할 뿐만 아니라, 새로운 데이터 증강 전략과 학습 목표도 적용합니다. 이를 통해 BirdSET과 BEANS 생물음향 벤치마크 모두에서 최첨단 결과를 도출했습니다.
전체 보고서 보기:https://go.hyper.ai/B7ZUk
2. 온라인 튜토리얼: MediCLIP은 최소한의 의료 영상 데이터만을 사용하여 이상 탐지 및 위치 추정 분야에서 최첨단 기술을 구현합니다.
베이징대학교 연구팀은 효율적인 단 몇 번의 촬영만으로 의료 영상 이상 탐지 솔루션을 제공하는 MediCLIP을 제안했습니다. 최소한의 정상 의료 영상만을 사용하여 이상 탐지 및 위치 추정 작업에서 탁월한 성능을 발휘합니다. 다양한 의료 영상 유형에서 다양한 질병을 효과적으로 탐지하여 탁월한 제로샷 일반화 기능을 보여줍니다.
전체 보고서 보기:https://go.hyper.ai/VAhFb
3. 연구자들이 "행복한 보금자리"를 잃고 있는 걸까요? Paper With Code는 문을 닫았고, 네티즌들은 Hugging Face의 새로운 섹션에 실망감을 표하고 있습니다.
Paper With Code가 공식적으로 운영을 중단했고, 전 세계 딥 유저들이 목소리를 냈습니다. 한편으로는 머신러닝 연구에서 이 웹사이트의 가치를 높이 평가했지만, 다른 한편으로는 논문과 오픈소스 코드 간의 상호 작용뿐 아니라 SOTA 및 리더보드와 같은 기능 또한 매우 중요하다는 현실적인 요구도 제기했습니다.
전체 보고서 보기:https://go.hyper.ai/poRWa
4. 출력 분산이 크게 감소했습니다! UCLA는 가상 염색 결과의 재현성을 향상시키기 위해 양방향 브라운 브리지 확산 모델을 출시했습니다.
UCLA 연구팀은 영상 질량 분석법에서 조직화학 염색 문제를 해결하기 위해 확산 모델을 기반으로 한 가상 조직 염색 방법을 제안했습니다. 이 방법은 공간 분해능을 높이고 표지 없는 인체 조직의 질량 분석법 이미지에 세포 형태학적 대비를 디지털 방식으로 도입하여 저해상도 IMS 데이터를 기반으로 고해상도 세포 조직의 병리학적 구조를 예측할 수 있습니다.
전체 보고서 보기:https://go.hyper.ai/gcZ5U
Ainnova Tech는 90% 이상의 정확도를 갖춘 3초 감지 플랫폼을 개발했습니다. 해당 플랫폼의 임상시험 계획은 FDA의 지침을 받았습니다.
의료 기술 기업인 Ainnova Tech는 안저 영상 기반 지능형 진단 기술을 활용하는 Vision AI 플랫폼을 구축했습니다. 이 플랫폼은 당뇨병성 망막증(TP3T 정확도 90.1% 이상), 심혈관 질환 위험, 기타 다기관 질환을 몇 초 만에 진단할 수 있습니다. 20개국 이상에서 서비스를 제공하는 Ainnova Tech는 2025년 7월 FDA와의 사전 허가 미팅을 성공적으로 마쳤으며, 현재 라틴 아메리카에서 무료 검진 모델을 출시하여 만성 질환 조기 진단의 혁신을 주도하고 있습니다.
전체 보고서 보기:https://go.hyper.ai/Ete2g
인기 백과사전 기사
1. 달-이
2. 상호 정렬 융합 RRF
3. 파레토 전선
4. 대규모 멀티태스크 언어 이해(MMLU)
5. 대조 학습
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!