주간 편집자 추천 | Microsoft가 Orca-Math 고품질 수학 데이터 세트를 오픈 소스화하고 Tsinghua University 연구팀은 조건부 잡음 제거 확산 모델 SPDiff를 출시했습니다.

Orca-Math는 Microsoft Research에서 발표한 수학적 추론 모델입니다.이 모델은 특정 분야에서 소규모의 특화된 모델이 대형 모델의 성능과 맞먹거나 심지어 더 뛰어난 성능을 보일 수 있다는 가치를 보여줍니다.Microsoft는 최근 Orca-Math를 학습하는 데 사용되는 Orca-Math-200K 수학 단어 문제 데이터 세트를 오픈 소스로 공개했습니다. 이제 hyper.ai 공식 웹사이트에서 다운로드할 수 있습니다. 와서 체험해 보세요!
3월 11일부터 3월 15일까지 hyper.ai 공식 웹사이트가 업데이트됩니다.
* 고품질 공개 데이터 세트: 10
* 고품질 공개 튜토리얼: 2
* 커뮤니티 게시물 선정 : 3개 게시물
* 인기 백과사전 항목: 10개
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. Orca-Math-200K Microsoft 수학 단어 문제 데이터 세트
Orca-Math-200K는 Microsoft에서 만든 고품질 합성 데이터 세트로, 약 20만 개의 초등학교 수학 문제가 포함되어 있습니다. 이 데이터 세트의 모든 답변은 Azure GPT4-Turbo를 사용하여 생성되었습니다.
직접 사용:
2. MULTI-Benchmark: 텍스트와 이미지를 활용한 다중 모드 이해를 위한 리더보드
이 데이터 세트는 상하이 교통대학에서 발표한 멀티모달 벤치마크 MULTI로, 대규모 멀티모달 모델이 복잡한 표와 이미지를 이해하고 긴 텍스트 추론을 수행하는 능력을 평가하는 것을 목표로 합니다. 이 시험은 다양한 형태의 입력을 제공하며, 실제 시험 스타일을 반영하여 정확하거나 개방형으로 응답해야 합니다. MULTI에는 공식 도출부터 이미지 분석, 교차 모달 추론까지 다양한 과제를 다루는 18,000개 이상의 문제가 포함되어 있습니다.
직접 사용:
3. IEPile 대규모 정보 추출 코퍼스
IEPile은 저장대학교에서 개발한 대규모 고품질 이중 언어(중국어 및 영어) 정보 추출(IE) 지침 미세 조정 데이터 세트로, 명명된 개체 인식(NER), 관계 추출(RE), 이벤트 추출(EE)의 세 가지 핵심 하위 작업을 포함합니다. 이 데이터 세트에는 약 200만 개의 명령어 샘플이 포함되어 있으며, 총 토큰 수는 약 3억 2천만 개로, 일반, 의료, 금융 등 다양한 분야를 포괄합니다.
직접 사용:
4. 3D 얼굴 재구성을 위한 FFHQ-UV-내재적 얼굴 속성 데이터 세트
FFHQ-UV-Intrinsic은 Ubisoft LaForge가 FFHQ-UV 데이터 세트를 기반으로 구축한 고유 얼굴 속성 데이터 세트입니다. 이 데이터 세트에는 확산 반사, 정반사, 주변 폐색, 반투명도 맵을 포함하여 10,000명의 피험자의 얼굴 고유 속성이 포함되어 있습니다. 고해상도의 내재적 속성을 제공하는 최초로 공개적으로 이용 가능한 대규모 얼굴 데이터 세트입니다.
직접 사용:
5. GITQA 다중 모드 그래프 추론 질문 답변 데이터 세트
GITQA는 홍콩과학기술대학교와 남부과학기술대학교가 공동으로 구축한 시각적 그래프를 포함한 최초의 추론 질문 답변 데이터 세트입니다. 이 데이터 세트에는 423,000개 이상의 질문-답변 인스턴스가 포함되어 있으며, 각 인스턴스에는 해당 그래프-텍스트-시각적 정보와 해당 질문-답변 쌍이 포함되어 있습니다.
직접 사용:
6. SMolInstruct 화학 지침 미세 조정 데이터 세트
SMolInstruct는 오하이오 주립 대학에서 제안한 대규모, 포괄적이며 고품질의 화학 지침 미세 조정 데이터 세트입니다. 이 데이터 세트에는 14가지의 다양한 화학 작업과 총 300만 개 이상의 샘플이 포함되어 있으며, 160만 개의 고유 분자를 다룹니다.
직접 사용:
7. MusicPile 대규모 음악 데이터 세트
MusicPile은 멀티모달 아트 프로젝션 연구 커뮤니티, Skywork AI, 홍콩과학기술대학교가 공동으로 출시한 대규모 음악-언어 사전 학습 데이터 세트입니다. 이 데이터 세트에는 음악 서적, YouTube 음악 자막, ABC 표기법 작품 등의 출처에서 수집한 517만 개의 샘플과 약 41억 6천만 개의 토큰이 포함되어 있습니다. MusicPile은 광범위한 음악 상식, 지식 질문과 답변, 전형적인 음악 이론 콘텐츠를 포괄하여 대규모 모델의 음악 이해 및 창작 능력을 향상시키는 데 중요한 역할을 합니다.
직접 사용:
8. seq-monkey 시퀀스 원숭이 오픈소스 데이터 세트 1.0
Sequence Monkey는 Mobvoi가 제공하는 대규모 언어 모델입니다. Sequence Monkey 데이터 세트는 Sequence Monkey 모델을 학습하는 데 사용되는 데이터 세트입니다. 일부 데이터 세트는 추출되어 대중에게 공개되었습니다. 관련 분야는 다음과 같습니다: 중국어 일반 텍스트 코퍼스, 고대 시 번역 코퍼스, 텍스트 생성 코퍼스.
직접 사용:
9. 두반 영화 단편 리뷰 데이터 세트 V2
이 데이터 세트에는 Douban 영화 웹사이트의 28개 영화에 대한 200만 개 이상의 짧은 리뷰가 포함되어 있습니다. 이는 텍스트 분류, 텍스트 클러스터링, 감성 분석, 의미 네트워크 구축 및 웹 마이닝이나 NLP와 관련된 다른 분야에 사용될 수 있습니다.
직접 사용:
10. AdaDR - "적응형 GCN 방식 기반 약물 재분배" 논문의 데이터 세트
이 데이터 세트는 "적응형 GCN 방식에 기반한 약물 재배치" 논문에서 사용되었습니다. 연구팀은 제안된 모델의 성능을 종합적으로 평가하기 위해 약물 재배치 작업에 적용할 수 있는 Gdataset(Gottlieb et al. 2011), Cdataset(Luo et al. 2016), Ldataset(Yu et al. 2021) 및 LRSSL(Liang et al. 2017)의 네 가지 벤치마크 데이터 세트를 사용했습니다.
직접 사용:
이번 주에 더 업데이트된 데이터세트를 보려면 방문하세요.:
선택된 공개 튜토리얼
1. 전이 학습을 이용한 꽃 분류
이 튜토리얼에서는 전이 학습을 사용하여 꽃 이미지 데이터 세트에 대한 이미지 분류를 수행하는 방법을 보여줍니다. 이 튜토리얼에서는 사전 학습된 합성곱 신경망(CNN)을 특징 추출기로 사용하고 이를 기반으로 꽃의 종을 예측하는 사용자 정의 분류기를 구축합니다.
튜토리얼을 온라인으로 실행하세요:
2. 효율적인 배포를 위한 양자화 비전 변환기(Vit): 전략 및 모범 사례
산업 전반에서 고급 컴퓨터 비전 시스템에 대한 수요가 급증함에 따라, Vision Transformers의 배포는 연구자와 실무자에게 주요 관심사가 되었습니다. 하지만 이러한 모델의 잠재력을 최대한 실현하려면 아키텍처에 대한 깊은 이해가 필요합니다. 또한, 이러한 모델을 효과적으로 배포하기 위한 최적화 전략을 개발하는 것도 마찬가지로 중요합니다.
이 튜토리얼에서는 Vision Transformer 아키텍처, 핵심 구성 요소, 그리고 이를 독특하게 만드는 근거에 대한 포괄적인 설명을 제공합니다. 튜토리얼의 마지막에서는 코드 데모와 함께 몇 가지 최적화 전략을 논의하여 모델을 더 간결하게 만들어 배포를 용이하게 합니다.
튜토리얼을 온라인으로 실행하세요:
커뮤니티 기사
청화대학교 연구팀은 새로운 조건부 잡음 제거 확산 모델인 SPDiff를 제안했습니다. 이 모델은 사회적 힘에 의해 안내되는 확산 과정을 통해 군중 행동을 시뮬레이션하기 위해 상호작용 역학을 효과적으로 활용할 수 있습니다. 관련 논문은 AAAI 2024에 게재되었습니다.
전체 보고서 보기:
2. 베이징사범대 연구팀은 향후 70년간 중국의 풍력에너지 활용 잠재력을 예측하기 위해 ECA-Net 모델을 구축했다.
최근 베이징사범대학 환경학부 연구팀은 지구 온난화로 인해 우리나라의 풍력 에너지 잠재력이 어떻게 변화할지 평가한 논문을 발표했습니다. 이 연구에서는 22개의 CMIP6 글로벌 기후 모델을 출력으로 사용하여 모델 간 불확실성에 대한 강력한 평가를 제공했습니다. 결과에 따르면, 이번 세기 동안 우리나라의 전반적인 풍력 에너지 밀도는 약간 감소 추세를 보일 것으로 보입니다. 관련 논문은 "ACS Publications"에 게재되었습니다.
전체 보고서 보기:
3. 엔비디아 2024 GTC 카운트다운, 황런쉰이 중국 시장을 위한 새로운 이니셔티브를 가져올까?
2024년 GTC AI 컨퍼런스는 3월 18일부터 21일까지 개최될 예정이다. 황런쉰은 3월 19일 베이징 시간 오전 4시부터 6시까지 "AI의 변혁적 순간을 목격하다"라는 주제로 연례 강연을 할 예정입니다. 황의 최근 연설, 인터뷰, 업계 동향을 바탕으로 HyperAI는 그의 연설 주제에 대해 대담한 예측을 내놓았습니다.
전체 보고서 보기:
https://my5353.com/n30151
백과 사전선택된 항목
1. 평균 정밀도(mAP)
2. 인스턴스 분할
3. 연합을 통한 교차(IoU)
4. 다항식 보간
5. 상호 순위 융합(RRF)
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.
B 스테이션 생방송 미리보기
날짜 | 시간 | 콘텐츠 |
3월 18일 월요일 | 10:0017:00 | MIT 딥러닝 과정 2020MIT 딥러닝 과정 2021 |
3월 19일 화요일 | 10:00 | Python API 개발 - 초보자를 위한 종합 과정 |
3월 20일 수요일 | 10:0014:00 | SQL 튜토리얼 - 초보자 과정 생성 AI 전체 과정 |
3월 21일 목요일 | 21:00 | 초보자를 위한 플러터 코스 |
3월 22일 금요일 | 10:00 | 초보자를 위한 플러터 코스 |
3월 23일 토요일 | 10:00 | 하버드 CS50 - 파이썬 인공지능 과정 |
3월 24일 일요일 | 10:00 | 하루 만에 딥러닝을 위한 PyTorch 배우기 |
Super Neuro TV는 24시간 내내 생방송을 통해 AI 산업에 대한 통찰력을 지속적으로 제공합니다. 함께 배워봅시다:
http://live.bilibili.com/26483094
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1200개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 300개 이상의 고전적이고 인기 있는 온라인 튜토리얼이 포함되어 있습니다.
* 100개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.