2.5천 개의 질문! HLE는 대규모 언어 모델을 위한 정밀한 평가 시스템 구축에 획기적인 진전을 이루었습니다. 40억 개의 매개변수를 가진 경량 대규모 언어 모델인 Jan-Nano는 심층 연구 과제를 위해 설계되었습니다.

최근 몇 년 동안 대규모 언어 모델(LLM)은 획기적인 발전을 이루었으며, 질문에 답하고 콘텐츠를 생성하는 등 다양한 작업을 처리할 수 있게 되면서 강력한 역량을 입증하고 있습니다. 벤치마크는 LLM의 개발 역량을 평가하는 중요한 도구이며, LLM의 역량을 개선하고 향상시키는 데 중요한 참고 자료가 됩니다. 그러나 현재 널리 사용되는 벤치마크는 난이도 설계가 부족합니다. 최첨단 LLM들이 기존 평가에서 유사한 수준 또는 높은 점수를 기록했기 때문입니다. 이는 LLM 역량 측정의 정확성을 제한하고 대규모 모델의 역량 개선을 위한 여지를 흐리게 합니다.
이를 바탕으로 AI 안전 센터와 스케일 AI는 공동으로 다중 모드 인간 문제 벤치마크 데이터 세트인 Humanity's Last Exam(HLE)을 출시했습니다.인간 지식의 경계를 포괄하는 최고의 인장을 구축하는 것을 목표로 합니다.닫은평가하다체계.이 데이터 세트는 수십 개의 과목 영역에서 2,500개의 질문으로 구성되어 있으며, 정확하고 효과적인 LLM 능력 측정 기준을 제공하고, 현재 LLM 능력과 전문적 학문 간의 격차를 해소하며, 지식의 최전선 분야에서 LLM 능력의 빠른 개선을 더욱 효과적으로 달성하기 위해 노력합니다.
현재 HyperAI 슈퍼 신경망 공식 웹사이트에서 "HLE 인간 문제 추론 벤치마크 데이터 세트"를 출시했습니다. 와서 사용해 보세요~
데이터세트 다운로드:
7월 14일부터 7월 18일까지 hyper.ai 공식 웹사이트가 업데이트되었습니다.
* 고품질 공개 데이터 세트: 10
* 고품질 튜토리얼 선택: 5개
* 이번 주 추천 논문 : 5
* 커뮤니티 기사 해석 : 5개 기사
* 인기 백과사전 항목: 5개
* 7월 마감일 상위 컨퍼런스: 4
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. GSM8K 수학적 추론 데이터 세트
GSM8K는 OpenAI가 2022년에 발표한 수학적 추론 데이터셋으로, 복잡한 수학 문제를 이해하고 해결하는 머신러닝 모델의 성능 향상을 목표로 합니다. 이 데이터셋은 대수, 산수, 기하학 및 기타 분야를 포괄하는 8.5k개의 고품질 초등학교 수학 문제들을 포함하고 있습니다. 문제 해결 단계는 2~8단계로 구성되어 있으며, 주로 기본적인 산술 연산(덧셈, 뺄셈, 곱셈, 나눗셈)을 사용한 일련의 간단한 계산을 통해 최종 답을 구합니다.
직접 사용:https://go.hyper.ai/ZqNLt
2. 작물 질병 작물 질병 데이터 세트
작물 질병(Crops Disease)은 다양한 작물의 질병을 자동으로 감지하고 분류하는 컴퓨터 비전 모델 개발을 지원하기 위해 설계된 농업 작물 질병 이미지 데이터셋입니다. 이 데이터셋은 옥수수, 토마토, 감자 등 다양한 작물의 일반적인 질병을 포함하는 약 1,300개의 작물 질병 이미지를 포함하고 있으며, 각 이미지에는 특정 질병 범주가 주석으로 표시되어 있습니다.
직접 사용:https://go.hyper.ai/GEDTA

3. OpenScience 다중 도메인 합성 데이터 세트
OpenScience는 엔비디아가 2023년에 출시한 다중 도메인 합성 데이터셋으로, 지도 학습 미세 조정 또는 강화 학습을 통해 GPQA-Diamond 및 MMLU-Pro와 같은 고급 벤치마크의 정확도를 향상시키는 것을 목표로 합니다. 이 데이터셋은 STEM, 법학, 경제학, 인문학 등 다양한 과학 분야를 포괄하는 600만 개의 객관식 질문-답변 쌍과 상세한 추론 추적을 포함합니다.
직접 사용:https://go.hyper.ai/YvAo7
4. Skywork-OR1-RL 수학적 프로그래밍 문제 추론 데이터 세트
Skywork-OR1-RL은 Skywork-OR1(Open Reasoner 1) 수학 프로그래밍 추론 모델을 학습하도록 설계된 수학 프로그래밍 문제 추론 데이터셋입니다. 이 데이터셋에는 검증 가능하고, 난이도가 높으며, 다양한 10만 5천 개의 수학 문제와 1만 4천 개의 프로그래밍 문제가 포함되어 있습니다.
직접 사용:https://go.hyper.ai/mxoAv
5. 조류 종 조류 분류 이미지 데이터 세트
Bird Species는 컴퓨터 비전 모델을 학습시켜 조류 종을 식별하고 분류하는 데 적합한 조류 이미지 분류 데이터셋입니다. 이 데이터셋은 7종의 조류를 포함하고 있으며, 각 종마다 1,200개의 이미지가 있습니다. 각 종의 이미지에는 해당 종의 깃털 패턴, 색상, 그리고 몸 구조가 포함되어 있습니다. 일부 이미지는 의도적으로 흐릿하게 처리되거나, 기울어지거나, 서로 다른 종의 조류 두 마리가 포함되어 있어 실제 세계의 복잡성을 높이고 자연 환경에서 정확한 분류를 위한 모델의 강건성을 높입니다.
직접 사용:https://go.hyper.ai/X2X2M

6. NextCoder 코드 편집 데이터 세트
NextCoder는 마이크로소프트가 2025년에 출시한 합성 대화 코딩 편집 데이터셋입니다. 대규모 언어 모델을 미세 조정하여 코드 수정, 리팩토링 및 최적화 성능을 향상시키는 데 사용됩니다. AI 프로그래밍 어시스턴트 훈련과 코드 판독 및 다중 라운드 상호작용 기능 향상에 매우 적합합니다. 이 데이터셋은 약 38만 1천 개의 단일 라운드 명령어 샘플(NextCoderDataset)과 5만 7천 개의 다중 라운드 대화 샘플(대화형 버전)을 포함하고 있으며, Python, Java 등 8개 언어를 지원합니다.
직접 사용:https://go.hyper.ai/e4MIs
7. Psych-101 심리학 지식 질의응답 데이터 세트
Psych-101은 심리학 지식 질의응답 데이터셋으로, 심리학 지식 질의응답 과제를 위한 자연어 처리 모델 개발을 지원하고 심리학 관련 AI 연구, 특히 심리학 교육, 감정 분석, 정신 건강 분야 연구를 촉진하기 위해 설계되었습니다. 이 데이터셋은 160건의 심리학 실험과 60,092명의 참가자로부터 얻은 시행별 데이터를 포함하며, 총 10,681,650개의 선택지를 제공합니다.
직접 사용:https://go.hyper.ai/NUshw
8. 백혈병 백혈병 이미지 데이터 세트
백혈병(Leukemia)은 백혈병 세포를 자동으로 감지하고 분류하는 컴퓨터 비전 모델을 학습하는 데 사용하도록 설계된 백혈병 세포 이미지 데이터셋입니다. 이 데이터셋에는 정상 세포(3,389개)와 백혈병 세포(3,389개)를 포함하여 총 6,778개의 세포 이미지가 포함되어 있습니다.
직접 사용:https://go.hyper.ai/Lwxwj

9. 흉부 폐렴 엑스선 촬영 영상 데이터 세트
흉부 폐렴용 X선 영상은 컴퓨터 비전 모델을 훈련하고 평가하여 자동 진단 시스템이 폐렴과 같은 호흡기 질환을 감지하도록 설계된 흉부 X선 영상 데이터세트입니다. 이 데이터세트는 정상 및 폐렴(박테리아 및 바이러스)의 두 가지 범주로 구분된 약 5,800개의 흉부 X선 영상을 포함합니다.
직접 사용:https://go.hyper.ai/Pgra4

10. 토양 수분 토양 수분 이미지 데이터 세트
토양 수분(Soil Moisture)은 토양 수분이 작물 생장에 미치는 영향을 연구하고, 관개 시스템을 최적화하며, 농업 생산 효율을 향상시키는 것을 목표로 하는 측정 기반 토양 수분 데이터셋입니다. 또한 기후 변화 및 수자원 관리와 같은 분야에서도 중요한 응용 분야를 가지고 있습니다. 이 데이터셋은 인도네시아 본도워소(Bondowoso)의 빗물 농업 지역에서 촬영한 200장의 토양 표면 이미지를 포함하고 있습니다.
직접 사용:https://go.hyper.ai/TtpgP

선택된 공개 튜토리얼
이번 주에는 고품질 공개 튜토리얼을 4가지 범주로 요약했습니다.
*과학 튜토리얼을 위한 AI: 2
*텍스트 인식 튜토리얼: 1
*다중 모드 튜토리얼: 1
*대형 모델 튜토리얼: 1
과학을 위한 AI 튜토리얼
1. RFdiffusion: 확산 단백질 설계 모델
RFdiffusion은 단백질 구조 생성 프레임워크입니다. RoseTTAFold를 백본 네트워크로 사용하고, 잡음 제거 확산 확률 모델(DDPM)을 도입하여 새로운 단백질 구조를 처음부터 설계합니다. 이 프레임워크는 복잡한 형태(예: α-나선 및 β-폴드)의 단백질을 설계하고 효소의 촉매 부위 스캐폴드를 정확하게 예측할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/q7Ajs
2. Biomni: 최초의 일반 생물의학제
Biomni는 유전학, 유전체학, 미생물학, 약리학, 임상 의학 등 다양한 생물의학 분야에서 복잡한 연구 작업을 자율적으로 완료할 수 있는 범용 생물의학 AI 에이전트로, AI 기반 과학적 발견의 발전에 새로운 단계를 열었습니다.
온라인으로 실행:https://go.hyper.ai/aameS
텍스트 인식 튜토리얼
1. OCRFlux-3B: 지능형 텍스트 인식 툴킷
OCRFlux-3B는 PDF와 이미지를 깔끔하고 읽기 쉬운 일반 마크다운 텍스트로 변환하는 다중 모드 대규모 언어 모델 기반 툴킷입니다. 이 도구는 페이지 단위 텍스트 변환 기능을 제공할 뿐만 아니라, 여러 페이지에 걸쳐 표와 단락을 병합하는 기능도 지원하여 복잡한 문서 구조 처리를 강력하게 지원합니다.
온라인으로 실행:https://go.hyper.ai/BGqmR

멀티모달 튜토리얼
1. EvoSearch-codes: 진화 알고리즘 프레임워크
EvoSearch-codes는 홍콩과학기술대학교와 콰이쇼우 켈링(Kuaishou Keling) 팀이 개발한 진화 탐색(Evolutionary Search) 방법입니다. 추론 과정에서 계산량을 늘려 모델 생성 품질을 크게 향상시키고, 이미지 및 비디오 생성을 지원하며, 최첨단 확산 기반 및 흐름 기반 모델을 지원합니다. 이 모델은 학습이나 기울기 업데이트 없이도 일련의 작업에서 상당한 최적 결과를 얻을 수 있으며, 뛰어난 확장성, 강건성, 그리고 일반화를 보여줍니다.
온라인으로 실행:https://go.hyper.ai/zjzrE

대형 모델 튜토리얼
1. Jan-Nano: 연구 중심의 컴팩트한 언어 모델
Jan-Nano는 Menlo Research 팀이 2025년 7월 1일에 발표한 40억 개의 매개변수를 가진 경량 대용량 언어 모델입니다. 심층적인 연구 작업을 위해 설계되었으며, 다양한 연구 도구 및 데이터 소스와의 효율적인 통합을 용이하게 하기 위해 Model Context Protocol(MCP) 서버에 최적화되었습니다.
온라인으로 실행:https://go.hyper.ai/mC8gx

💡또한, 안정적 확산 튜토리얼 교환 그룹도 만들었습니다. 친구들을 환영합니다. QR 코드를 스캔하고 [SD 튜토리얼]에 댓글을 남겨 그룹에 가입하여 다양한 기술 문제를 논의하고 신청 결과를 공유하세요~

이번 주 논문 추천
1. 반사적 생성 모델을 사용한 테스트 시간 스케일링
본 논문에서는 자기 지도 프로세스 보상 모델(SPRM)을 통해 OpenAI o3의 성능 수준을 달성하는 최초의 반사적 생성 모델인 MetaStone-S1을 소개합니다. SPRM은 백본 네트워크를 공유하고 다음 토큰 예측 및 프로세스 스코어링에 각각 작업별 헤드를 사용함으로써, 추가적인 프로세스 주석 없이 정책 모델과 프로세스 보상 모델(PRM)을 통합 인터페이스로 성공적으로 통합하여 PRM 매개변수를 99% 이상 줄임으로써 효율적인 추론을 달성합니다.
논문 링크:https://go.hyper.ai/zFLhf
2. Open Vision Reasoner: 시각적 추론을 위한 언어적 인지 행동 전달
본 논문은 Qwen2.5-VL-7B 기반의 2단계 패러다임을 제안합니다. 먼저 대규모 언어 콜드 스타트 미세 조정을 거친 후, 거의 1000단계에 달하는 다중 모드 강화 학습(RL)을 수행하는데, 이는 기존의 모든 오픈 소스 시도를 능가합니다. 최종 모델인 Open-Vision-Reasoner(OVR)는 MATH500에서 95.3%, MathVision에서 51.8%, MathVerse에서 54.6%를 포함한 다양한 추론 벤치마크에서 최고 성능을 달성합니다.
논문 링크:https://go.hyper.ai/WucU8
3. 추론인가 암기인가? 데이터 오염으로 인한 강화 학습의 신뢰할 수 없는 결과
연구진은 Qwen2.5가 수학적 추론에서는 우수한 성능을 보이지만, 대규모 웹 코퍼스를 사전 학습했기 때문에 널리 사용되는 벤치마크에서 데이터 오염에 취약하며, 이는 결국 벤치마크에서 얻은 결과의 신뢰성에 영향을 미친다는 것을 발견했습니다. 이 문제를 해결하기 위해 연구진은 임의의 길이와 난이도를 가진 완전히 합성된 산술 문제를 생성할 수 있는 생성기를 도입하여 RandomCalculation이라는 깔끔한 데이터셋을 생성했습니다. 이러한 누수 없는 데이터셋을 사용하여, 정확한 보상 신호만이 성능을 지속적으로 향상시킬 수 있으며, 노이즈가 있거나 오류가 있는 신호는 그렇지 않다는 것이 증명되었습니다.
논문 링크:https://go.hyper.ai/WZp4V
4. NeuralOS: 신경 생성 모델을 통한 운영 체제 시뮬레이션
본 논문에서는 마우스 움직임, 클릭, 키보드 이벤트와 같은 사용자 입력에 대한 화면 프레임을 직접 예측하여 운영 체제의 그래픽 사용자 인터페이스(GUI)를 시뮬레이션하는 신경망 프레임워크인 NeuralOS를 소개합니다. NeuralOS는 컴퓨터 상태를 추적하는 순환 신경망(RNN)과 화면 이미지를 생성하는 확산 기반 신경망 렌더러를 결합합니다. NeuralOS는 미래의 인간-컴퓨터 상호작용 시스템을 위한 완전히 적응적이고 생성적인 신경 인터페이스를 구축하는 방법을 제시합니다.
논문 링크:https://go.hyper.ai/hceCb
5. CLiFT: 컴퓨팅 효율적이고 적응적인 신경 렌더링을 위한 압축 광필드 토큰
본 논문에서는 장면을 "압축된 라이트 필드 토큰(CLiFT)"으로 표현하는 신경망 렌더링 방법을 제안합니다. 이 방법은 장면의 풍부한 외관과 기하 구조를 그대로 유지합니다. CLiFT는 압축 토큰을 사용하여 계산 효율적인 렌더링을 구현하는 동시에, 훈련된 단일 네트워크에서 토큰 수를 변경하여 장면을 표현하거나 새로운 관점을 렌더링할 수 있습니다.
논문 링크:https://go.hyper.ai/aqzHX
더 많은 AI 프런티어 논문:https://go.hyper.ai/iSYSZ
커뮤니티 기사 해석
1. ICML 2025에 선정된 Meta/Cambridge/MIT는 주기적 및 비주기적 원자 시스템의 통합 생성을 최초로 실현하는 전원자 확산 변환기 프레임워크를 제안했습니다.
메타 FAIR, 케임브리지 대학교, MIT의 공동 연구팀은 주기 시스템과 비주기 시스템 간의 모델링 장벽을 허무는 전원자 확산 변환기 ADiT(All-atom diffusion Transformer ADiT)를 제안했습니다. 전원자 통합 잠재 표현(all-atom unified potential representation)과 변환기 잠재 확산(Transformer potential diffusion)이라는 두 가지 주요 혁신을 통해 단일 모델로 분자와 결정을 생성하는 획기적인 발전을 이루었습니다.
전체 보고서 보기:https://go.hyper.ai/Dnw5r
2. 단백질 주쇄와 측쇄 정보를 동시에 처리하여 메시지 전달 신경망을 기반으로 전체 원자 구조 모델링을 달성
스탠퍼드 대학교 연구팀과 캘리포니아 팔로알토에 있는 아크 연구소(Arc Institute)는 새로운 단백질 서열 설계 방법인 FAMPNN(Full-Atom MPNN)을 공동으로 제안했습니다. 이 방법은 각 아미노산 잔기의 서열 동일성과 측쇄 구조를 명확하게 모델링할 수 있습니다. 이 모델은 그래프 신경망 기반 메시지 전달 아키텍처를 사용하며, 향상된 MPNN 및 GVP 모듈을 결합하여 전체 원자 인코딩을 구현하여 단백질의 주쇄와 측쇄 정보를 동시에 처리할 수 있습니다.
전체 보고서 보기:https://go.hyper.ai/x04Am
3. 온라인 튜토리얼 | 150개의 전문 도구/59개의 데이터베이스/105개의 소프트웨어 패키지, Biomni는 8개의 실제 연구 과제에서 전문가 수준의 효율성을 능가합니다.
스탠퍼드 대학교는 제넨텍, 아크 연구소, UCSF 및 기타 기관들과 협력하여 최초의 범용 생의학 AI 에이전트인 Biomni를 개발했습니다. Biomni는 다양한 생의학 하위 분야에 걸쳐 광범위한 연구 과제를 자율적으로 수행하고, 25개 생의학 분야의 수만 건에 달하는 논문에서 필요한 도구, 데이터베이스 및 솔루션을 추출하여 최초의 통합 환경 에이전트를 생성할 수 있습니다. 시스템 벤치마크 결과, Biomni는 특정 과제에 대한 즉각적인 조정 없이도 다양한 생의학 과제에서 강력한 일반화를 달성합니다.
전체 보고서 보기:https://go.hyper.ai/VHpMD
4. 건축적 특징부터 생태계 구축까지 Muxi Dong Zhaohua는 국내 GPU에서 TVM의 적용 사례를 심층적으로 분석합니다.
7월 5일, HyperAI가 주최한 제7회 Meet AI Compiler Technology Salon이 성황리에 마무리되었습니다. Muxi Integrated Circuit의 수석 이사인 동자오화(Dong Zhaohua)는 Muxi GPU에 TVM을 적용하는 방법을 심도 있게 공유하고, 자사 GPU 제품의 기술적 특징, TVM 컴파일러 적응 솔루션, 실제 적용 사례 및 생태 구축 비전을 소개했습니다. 또한 고성능 컴퓨팅 및 AI 분야에서 국내 GPU의 기술적 혁신과 응용 잠재력을 보여주었습니다.
전체 보고서 보기:https://go.hyper.ai/rxxX3
5. NVIDIA, 원자 수준 단백질 설계에서 획기적인 성과 달성, 고정밀로 최대 800개 잔류물 단백질 생성
엔비디아 연구팀은 캐나다 퀘벡 인공지능 연구소의 밀라(Mila)와 협력하여 부분 잠재 흐름 매칭(partial latent flow matching)에 기반한 원자 수준 단백질 설계 방법인 라프로테이나(La-Proteina)를 제안했습니다. 이 방법은 단백질 생성 과정에서 명시적인 측쇄 표현의 차원 가변성이라는 핵심 과제를 해결하여 단백질 설계 분야에 새로운 돌파구를 제시합니다.
전체 보고서 보기:https://go.hyper.ai/0Sw8R
인기 백과사전 기사
1. 달-이
2. 상호 정렬 융합 RRF
3. 파레토 전선
4. 대규모 멀티태스크 언어 이해(MMLU)
5. 대조 학습
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.
정상회담 7월 마감일
7월 11일 7:59:59 포플 2026
7월 15일 7:59:59 소다 2026
7월 18일 7:59:59 시그모드 2026
7월 19일 7:59:59 ICSE 2026
최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!