12,000개의 복잡한 학제간 문제를 담고 있는 MMLU-Pro 벤치마크 데이터 세트를 이제 사용할 수 있습니다. 더 도전적이죠! DeepSeek 수학 모델 원클릭 배포

대규모 언어 모델(LLM) 시대에 대규모 다중 작업 언어 이해(MMLU)와 같은 벤치마크는 다양한 분야에서 AI의 언어 이해 및 추론 능력의 한계를 넓히는 데 중요한 역할을 합니다.
그러나 모델의 지속적인 개선과 최적화를 통해 이러한 벤치마크에서 LLM의 성능은 점차 안정화되어 다양한 모델의 성능 차이를 구분하기가 점점 더 어려워졌습니다.
LLM의 역량을 더 잘 평가하기 위해 워털루 대학교, 토론토 대학교, 카네기 멜론 대학교의 연구진은 MMLU-Pro 데이터 세트를 공동으로 출시했습니다. 이 데이터 세트에는 원래 MMLU 데이터 세트, STEM 웹사이트, TheoremQA, SciBench를 포함한 여러 소스의 질문이 통합되어 있습니다.해당 데이터 세트는 이제 hyper.ai에서 다운로드할 수 있습니다. 아래로 스크롤하여 링크를 받으세요~
9월 9일부터 9월 14일까지 hyper.ai 공식 웹사이트가 업데이트되었습니다.
* 고품질 공개 데이터 세트: 10
* 고품질 튜토리얼 선택: 3개
* 커뮤니티 기사 선정: 4개 기사
* 인기 백과사전 항목: 5개
* 9월 마감일 상위 컨퍼런스: 3
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. MMLU-Pro 대규모 멀티태스크 이해 데이터 세트
MMLU-Pro 데이터 세트는 대규모 언어 모델의 성능을 보다 엄격하게 벤치마킹하기 위해 설계된, 더욱 강력하고 까다로운 대규모 멀티태스크 이해 데이터 세트입니다. 이 데이터 세트에는 여러 학문 분야에 걸쳐 12,000개의 복잡한 질문이 포함되어 있습니다.
직접 사용: https://go.hyper.ai/PwJDW
2. DeepGlobe18 도로 추출 데이터 세트
Road Challenge의 훈련 데이터에는 1024×1024 크기의 RGB 위성 이미지 6,226개가 포함되어 있습니다. 이미지는 50cm 픽셀의 해상도를 가지고 있으며 DigitalGlobe의 위성을 통해 수집되었습니다.
직접 사용: https://go.hyper.ai/VIg0J
3. OpenForensics 얼굴 위조 탐지 데이터 세트
이 데이터 세트는 115,000개의 실제 이미지와 334,000개의 얼굴로 구성되어 있으며, 모든 이미지에는 위조 범주, 경계 상자, 분할 마스크, 위조 경계, 일반적인 얼굴 랜드마크를 비롯한 풍부한 얼굴 주석이 포함되어 있으며, 다양한 배경과 연령, 성별, 포즈, 위치, 얼굴 교합이 다른 여러 사람을 포괄합니다.
직접 사용: https://go.hyper.ai/jTTRz
4. DeepfakeTIMIT 딥페이크 감지 데이터 세트
이 데이터 세트에는 오픈 소스 생성적 적대 신경망(GAN) 기반 접근 방식을 사용하여 얼굴을 바꾼 비디오가 포함되어 있습니다. 이 영상은 원래의 자동 인코더 기반 딥페이크 알고리즘을 기반으로 제작되었습니다.
직접 사용: https://go.hyper.ai/me1TI
5. SESYD 합성 문서 데이터베이스
데이터 세트에는 벤치마크 실제 정보가 포함된 문서 이미지가 포함되어 있습니다. 여기에는 284,000개의 이미지, 190,000개의 기호, 284,000개의 문자가 포함된 11개 세트가 포함되어 있습니다. 이는 문서 이미지 분석 분야의 두 가지 주요 연구 문제에 초점을 맞춥니다. (1) 온라인 도면 이미지(예: 평면도 및 회로도)의 기호 인식 및 로컬라이제이션; (2) 지리적 지도에서의 문자 분할 및 인식.
직접 사용: https://go.hyper.ai/ZqRTQ
6. LAV-DF 멀티모달 딥페이크 오디오-비주얼 데이터 세트
LAV-DF는 VoxCeleb2 데이터세트에서 파생된 다중 모드(비디오 변조 및 오디오 변조) 데이터세트로, 36,431개의 실제 비디오와 99,873개의 가짜 비디오를 포함하여 총 136,304개의 비디오를 포함하고 있습니다.
직접 사용: https://go.hyper.ai/ujock
7. Vibrent 의류 대여 데이터 세트 의류 대여 데이터 세트
이 데이터 세트에는 64,000건의 거래, 2,200명의 익명 사용자의 임대 내역, 15,800개의 고유한 의상이 포함되어 있으며, 각 품목의 속성과 임대 내역에 대한 자세한 정보가 포함되어 있습니다. 모든 의류 품목은 개별 제품 또는 해당 제품 그룹으로 나열되어 있으며, 이는 개별 품목 간에 공유되는 디자인을 나타내며, 각 의류 품목에는 해당 품목의 특성을 설명하는 태그 세트가 함께 제공됩니다.
직접 사용:https://go.hyper.ai/PFlKA
8. FFIW10K 얼굴 위조 데이터 세트
이 데이터에는 유튜브에서 수집한 10,000개의 고품질 가짜 동영상이 포함되어 있으며, 프레임당 평균 3개의 얼굴이 포함되어 있습니다. 각 영상에는 실제 얼굴과 가짜 얼굴이 포함되어 있어 현실적이고 복잡한 장면에 더 가깝습니다. 조작 과정은 완전히 자동화되어 있으며 도메인 적대적 품질 평가 네트워크에 의해 제어되므로 데이터 세트의 확장성이 매우 뛰어나고 노동 비용이 저렴합니다.
직접 사용: https://go.hyper.ai/AHS7y
9. ForgeryNet 얼굴 위조 데이터 세트
이 데이터 세트에는 전 세계의 7가지 이미지 수준과 8가지 비디오 수준 위조 방법을 다루는 290만 개의 이미지와 221,247개의 비디오가 포함되어 있습니다. 이 데이터 세트는 연구자들에게 이미지 및 비디오 수준에서 이미지 위조 분류, 공간적 위조 위치 파악, 비디오 위조 분류, 시간적 위조 위치 파악의 네 가지 작업을 지원하는 풍부한 리소스를 제공합니다.
직접 사용: https://go.hyper.ai/Yx0mj
10. EEG Eve State 데이터 세트 Eye state EEG 데이터 세트
이 데이터 세트에는 눈이 뜨여 있는지 감겨 있는지의 상태를 출력으로 하는 EEG 측정 인스턴스가 포함되어 있습니다. 데이터 세트의 값은 시간 순서대로 정렬되어 있으며, 0은 눈을 뜬 상태를 나타내고 1은 눈을 감은 상태를 나타냅니다. 데이터 세트에는 AF3, F7, F3, FC5, T7, P, O1, O2, P8, T8, FC6, F4, F8, AF4로 라벨이 붙은 14개의 EEG 측정값이 포함되어 있습니다.
직접 사용:https://go.hyper.ai/RTBDy
더 많은 공개 데이터 세트를 보려면 방문하세요.:
선택된 공개 튜토리얼
1. 하나주요 배포 DeepSeek-Prover-V1.5
이 모델은 DeepSeek이 2024년에 오픈 소스로 공개한 수학적 정리 증명 모델입니다. 연구팀은 Lean 4에서 이 모델을 도입했습니다. 이 모델은 자체 반복과 Lean 증명자 감독을 통해 "Go" 스타일의 학습 환경을 구축합니다. 이 튜토리얼은 모델의 원클릭 배포 데모를 사용하는 방법에 대한 단계별 튜토리얼입니다.
직접 사용: https://go.hyper.ai/MevMB
2. LLaVA OneVision 다중 모드 만능 비전 모델 데모
이 모델은 이미지, 텍스트, 이미지-텍스트 혼합 입력 및 비디오를 처리할 수 있습니다. 이 모델은 세 가지 중요한 컴퓨터 비전 시나리오에서 개방형 멀티모달 모델의 성능 병목 현상을 동시에 돌파할 수 있는 최초의 단일 모델입니다. 공식 웹사이트로 가서 컨테이너를 복제하고 시작한 후, API 주소를 직접 복사하면 모델의 추론을 경험할 수 있습니다.
직접 사용: https://go.hyper.ai/Dcg74
3. 온라인 튜토리얼 | 선생님, 빈센트 반 고흐의 시대가 다시 바뀌었습니다! SD 핵심 멤버들이 자체 회사를 설립했고, 첫 모델인 FLUX.1은 SD 3와 Midjourney와의 치열한 경쟁을 벌였습니다.
원성투 모델 경쟁이 점점 더 치열해지고 있습니다! Stable Diffusion의 전 핵심 멤버들은 자체 회사를 설립하고 상업적 이용부터 오픈 소스 개인적 이용까지 모든 것을 포괄하는 텍스트 그래프 모델 FLUX를 출시했습니다. 생성된 효과는 실제 촬영과 매우 유사하며, 캐릭터의 세부 사항도 매우 사실적입니다. 현재 hyper.ai는 "FLUX ComfyUI(Black Myth Wukong LoRA 훈련 버전 포함)"를 출시했습니다. 아래 링크를 클릭하여 튜토리얼에 따라 배포하세요.
곧장사용:https://go.hyper.ai/trQhv
커뮤니티 기사
1. 데이터 세트 요약 | 딥페이크 혼란이 만연합니다. 마법을 사용해 마법을 물리치세요! 고품질 데이터 세트는 위조품 탐지 기술 발전에 도움이 됩니다.
얼굴 인식과 딥페이크의 혼란에 대처하기 위해서는 얼굴 인식 및 위조 감지 기술을 업그레이드하여 이미지와 비디오가 변조되었는지 정확하게 판별해야 할 시급한 필요성이 있습니다. HyperAI는 여러분이 클릭 한 번으로 다운로드할 수 있도록 널리 사용되는 얼굴 인식 및 DeepFake 데이터 세트 11개를 모아 놓았습니다.
전체 요약을 확인하세요:https://go.hyper.ai/EMKo2
2. Apple Intelligence가 밤늦게 폭발한다! 애플, 자체 개발한 칩 4종 출시…아이폰·아이워치·에어팟용 대대적 업그레이드
애플은 9월 10일 가을 신제품 출시 컨퍼런스에서 아이폰 16, 에어팟 4, 애플워치 시리즈 10 등 신제품을 출시했다. 자체 개발한 칩을 기반으로 성능이 비약적으로 향상되었으며, 애플 인텔리전스를 완벽하게 통합해 사용자에게 전례 없는 스마트 경험을 선사한다. 이 기사는 Apple의 가을 신제품 출시 이벤트에 대한 포괄적인 내용을 담고 있습니다.
전체 보고서 보기:https://go.hyper.ai/H7P8X
3. 56%로 민감도 향상, CUHK/Fudan/Yale 등 공동으로 새로운 단백질 동족체 검출 방법 제안
단백질 인식 과정에서 단백질 서열의 상동성을 확인하는 것은 가장 중요한 과제 중 하나입니다. 홍콩 중국 대학의 리위(Li Yu)는 푸단 대학의 지능복잡시스템 연구실과 상하이 인공지능 연구실의 젊은 연구원인 쑨스치(Sun Siqi), 예일 대학의 마크 거스타인(Mark Gerstein)과 함께 단백질 언어 모델과 고밀도 검색 기술을 기반으로 먼 단백질 상동성 연구의 문제점을 해결하기 위해 초고속, 고감도 상동성 감지 프레임워크인 고밀도 상동성 검색기를 제안했습니다. 본 논문은 연구논문을 자세히 해석하고 공유하는 것입니다.
전체 보고서 보기:https://go.hyper.ai/vLAej
4. 베이징사범대학교 연구팀은 2,500제곱킬로미터의 실제 데이터를 기반으로 고해상도 공간 해상도 이미지 예측을 달성하기 위해 StarFusion 모델을 제안했습니다.
베이징 사범대학 지구 표면 프로세스 및 자원 생태학 국가중점실험실의 천진(Chen Jin) 연구팀은 StarFusion이라는 듀얼 스트림 시공간 분리 융합 아키텍처 모델을 제안했습니다. 이는 대부분의 기존 딥 러닝 알고리즘이 학습을 위해 HSR 시계열 이미지를 필요로 한다는 문제를 극복하고 고해상도 공간 이미지 예측을 완벽하게 실현할 수 있습니다. 본 논문은 연구논문을 자세히 해석하고 공유하는 것입니다.
전체 보고서 보기:https://go.hyper.ai/7LmzA
인기 백과사전 기사
1. 시그모이드 함수
2. 대응 t-검정
3. 대조 학습
4. 반지도 학습
5. 데이터 증강
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1300개 이상의 공공 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 400개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함
* 100개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.