HyperAI

고품질 중국 데이터 세트의 빈틈을 메우기 위해 중국과학원, Zero One Everything, 베이징대학교를 포함한 10개 기관이 공동으로 COIG-CQIA 데이터 세트를 개발했습니다. 놀랍게도,이 데이터 세트의 "Retarded Post Bar"의 데이터 품질은 Zhihu, Douban, Sifou와 같은 지식 커뮤니티의 데이터 품질보다 훨씬 높습니다. COIG-CQIA 데이터 세트는 이제 hyper.ai 웹사이트에서 사용할 수 있습니다. 와서 구경해보세요!

4월 8일부터 4월 12일까지 hyper.ai 공식 웹사이트가 업데이트됩니다.

* 고품질 공개 데이터 세트: 10

* 엄선된 고품질 튜토리얼: 2개

* 커뮤니티 게시물 선정: 5개 게시물

* 인기 백과사전 항목: 5개

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. COIG-CQIA 고품질 중국어 학습 미세 조정 데이터 세트

COIG-CQIA는 Chinese Open Instruction Generalist의 약자로, 품질이 곧 전부입니다. 이는 중국 NLP 커뮤니티에 인간 상호작용 행동에 부합하는 고품질의 명령어 미세 조정 데이터를 제공하는 것을 목표로 하는 오픈 소스 고품질 명령어 미세 조정 데이터 세트입니다.

직접 사용:https://go.hyper.ai/Pg37L

2. EgoExoLearn 교차 관점 기술 학습 데이터 세트

EgoExoLearn 데이터 세트에는 일상 생활 장면과 전문 실험실에서 수집한 120시간 분량의 비디오 데이터가 포함되어 있습니다. 데이터 세트에 있는 비디오에는 시연 비디오뿐만 아니라, 시연을 본 후 공연자가 자신의 1인칭 관점(자기중심적)을 사용하여 녹화한 비디오도 포함됩니다.

직접 사용:https://go.hyper.ai/cYsPM

3. S2S-SIM 선박 협력 인식 시뮬레이션 데이터 세트

S2S-Sim 데이터 세트는 상하이 대학에서 개발한 최초의 선박 협력적 지각 시뮬레이션 데이터 세트입니다. 이 데이터 세트에는 총 7,000개의 데이터 프레임이 포함되어 있으며, 선박 경계 상자에 대한 96,881개의 정확한 주석이 포함되어 있습니다. 이 연구의 목적은 선박 간의 효과적인 협력적 인식을 지원하는 것이며, 특히 자율 주행 시스템과 선박 간의 협력적 인식 분야 연구에 중점을 두고 있습니다.

직접 사용: https://go.hyper.ai/AVWp2

4. 공통 코퍼스-zh 중국어 공개 도메인 데이터 세트

Common Corpus는 플레이아스, 허깅페이스 및 기타 기관이 공동으로 만들었습니다. 이는 현재 대규모 언어 모델(LLM)을 훈련하기 위한 가장 큰 퍼블릭 도메인 데이터 세트입니다. 이 데이터 세트는 영어, 프랑스어, 중국어, 스페인어, 독일어, 이탈리아어 및 기타 언어를 포함하여 전 세계 다양한 문화 유산 프로젝트에서 수집한 5,000억 개의 단어를 모아서 지금까지 가장 포괄적인 언어 리소스 라이브러리를 구축했습니다.

직접 사용: https://go.hyper.ai/hvuV5

5. TriviaQA 독해 및 질의응답을 위한 대규모 데이터 세트

TriviaQA는 65만 개 이상의 질문-답변 증거 3부작을 포함하는 독해 이해 데이터 세트입니다. TriviaQA에는 Wikipedia와 웹의 662,000개 문서에서 추출한 95,000개의 질문-답변 쌍이 포함되어 있습니다.

직접 사용: https://go.hyper.ai/aant8

6. HalluQA 중국 대형 모델 환각 평가 데이터 세트

HalluQA 데이터 세트에는 중국 역사, 문화, 관습, 사회 현상 등을 포함한 다양한 분야에 걸친 450개의 적대적 질문이 포함되어 있습니다.

직접 사용: https://go.hyper.ai/pWyqe

7. AI 모델이 생성한 홍수 분석 및 예측 데이터 세트

이 데이터 세트는 "계측되지 않은 유역의 극심한 홍수에 대한 전 세계 예측" 논문의 연구 데이터입니다. 주요 내용은 AI 모델이 생성한 홍수 재분석(1984-2021년) 및 재예측(2014-2021년) 데이터와 이에 상응하는 GloFAS 벤치마크 데이터입니다.

직접 사용: https://go.hyper.ai/bpsG3

8. MASSTAR 다중 모달 대규모 장면 데이터 세트

MASSTAR는 중산대학, 홍콩과학기술대학 및 기타 기관이 공동으로 제안한 다중 모드 대규모 장면 데이터 세트입니다. 여기에는 실제 세계에서 가져온 것을 포함하여 1,000개 이상의 장면 수준 3D 메시 모델이 포함되어 있습니다.

직접 사용:https://go.hyper.ai/eLZUy

9. VideoBadminton 배드민턴 비디오 동작 인식 데이터 세트

VideoBadminton은 오번대학교와 국립중앙대학교가 만든 배드민턴에 대한 고품질 비디오 데이터 세트입니다. 이 데이터 세트에는 국립중앙대학교 팀의 남녀 선수 19명의 배드민턴 비디오 데이터가 포함되어 있으며, 배드민턴 동작 18개, 비디오 클립 총 7,822개, 총 길이 145분이 포함되어 있습니다.

직접 사용:https://go.hyper.ai/w5ToD

10. FineFake: 세분화된 다중 도메인 가짜 뉴스 탐지 데이터 세트

FineFake는 베이항대학교와 베이징우정통신대학교가 공동으로 만든 세분화된 다중 도메인 가짜 뉴스 감지를 위한 데이터 세트입니다. 이 데이터 세트에는 총 16,909개의 데이터 샘플이 있으며, 6개의 의미 주제와 8개의 다양한 플랫폼을 포괄합니다. 각 뉴스 샘플에는 텍스트, 이미지, 잠재적인 사회적 맥락 정보를 포함한 여러 형태의 콘텐츠가 포함되어 있습니다.

직접 사용:https://go.hyper.ai/CNWIn

더 많은 공개 데이터 세트를 보려면 방문하세요.:

https://hyper.ai/datasets

선택된 공개 튜토리얼

1. 비용은 최대 16배까지 절감될 수 있습니다. ComfyUI Stable Cascade 튜토리얼이 온라인에 공개되어 클릭 한 번으로 배포할 수 있습니다!

이 튜토리얼은 AI 페인팅을 위해 ComfyUI Stable Casecade 워크플로를 사용하는 방법에 대한 튜토리얼입니다. 이 튜토리얼은 좋은 환경을 설정하고 Stable Cascade 기본 텍스트 이미지 워크플로를 내장했습니다. 노드를 직접 연결하여 사용 과정을 간소화하고 2초 안에 사진을 생성할 수 있습니다.

온라인으로 실행:https://go.hyper.ai/lJGLF

2. 작물 질병 이미지 분류 튜토리얼

이 튜토리얼은 PyTorch를 사용하여 작물 질병 이미지 분류를 수행하는 방법에 대한 것으로, 기계 학습 모델을 훈련하여 식물 질병을 탐지하거나 자동 식물 진단 알고리즘 학습을 개발하는 데 도움이 됩니다.

온라인으로 실행:https://go.hyper.ai/

커뮤니티 기사

1. 초대형 모델 리소스 모음 | 30개의 고품질 NLP 데이터 세트와 모델, 한 번의 클릭으로 사용할 수 있는 8개의 데모, 수집에 권장!

이 문서에서는 15개의 데이터 세트, 15개의 모델, 8개의 대규모 모델 데모를 포함하여 대규모 모델과 관련된 리소스를 요약하고 있으며, 다운로드 및 사용 링크도 포함되어 있습니다.

전체 기사 보기:https://go.hyper.ai/sYC6h

2. 63만개의 3차원 공간 구성을 효과적으로 식별하고, 청화대학교는 MOF 흡착 용량을 예측하기 위해 Uni-MOF 모델을 출시했습니다.

청화대학교 화학공학과의 루 디안난 교수 연구팀은 3차원 MOF 소재의 흡착 거동을 예측하기 위한 기계 학습 모델 Uni-MOF를 제안하는 데 앞장섰습니다. 이 모델은 사전 훈련을 통해 나노다공성 물질의 3차원 구조를 식별하고 복원할 수 있을 뿐만 아니라, 온도, 압력, 다양한 가스 분자와 같은 작동 조건을 추가로 고려할 수 있습니다. 과학적 연구와 실제 응용 분야에 모두 적합합니다. 관련 결과는 저널 "네이처"에 게재되었습니다.

전체 보고서 보기:https://go.hyper.ai/VWFVo

3. 난소암은 혈액 검사, 소변 검사 및 기타 지표를 통해 발견할 수 있습니다! 중산대학 류지홍 교수팀이 주도해 4대 의대와 공동으로 AI 융합모델 구축

중산대학, 남방의과대학, 화중과학기술대학, 저장대학은 난소암 진단을 위한 MCF 인공지능 융합 모델을 공동으로 구축했습니다. 이 모델은 일상적인 실험실 검사 데이터와 연령을 입력하여 난소암 발병 위험도를 계산할 수 있습니다. 이 모델의 정확도는 CA125, HE4와 같은 기존 바이오마커보다 더 좋습니다. 관련 결과는 The Lancet Digital Health에 게재되었습니다.

전체 보고서 보기:https://go.hyper.ai/prEbC

4. 인실리코 인사이트: AI 제약 스타기업의 도약, 딜레마, 그리고 혁신

4억 750만 달러를 조달한 인실리콘 밸리 실리콘은 올해 1월 홍콩 증시 상장에 실패했고, 3월 27일 두 번째 상장 신청서를 제출했습니다. 중국과 미국의 기술 경쟁 속에서 "미국 스타트업, 중국 공동 CEO, 미국 주주, 중국 본사..."라는 이 회사의 상황은 압박감을 배가시켰습니다. 교착 상태를 어떻게 타개할 수 있을지, 그리고 성공적으로 '최초의 AI 제약주'가 될 수 있을지는 아직 미지수다. 이 글에서는 기술 개발, 팀 구성, 사업 개발 측면에서 AI 제약 스타 기업에 대한 심층적인 소개를 제공합니다.

전체 보고서 보기:https://go.hyper.ai/llREq

인기 백과사전 기사

1. 랭 체인

2. 전문가 혼합 모델 MoE

3. 그룹 질의 주의 GQA

4. 상호 순위 퓨전 RRF

5. 회수율

다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

https://hyper.ai/wiki

B 스테이션 생방송 미리보기

날짜	시간	콘텐츠
4월 15일 월요일	10:00	Google IO 컨퍼런스는 수년간 진행되었습니다.
4월 16일 화요일	10:00	MIT 딥러닝 과정 2020
4월 17일 수요일	10:00	MIT 딥러닝 과정 2021
4월 18일 목요일	10:00	Python API 개발 초보자를 위한 종합 과정
4월 19일 금요일	10:00	초보자를 위한 플러터 코스
4월 20일 토요일	10:00	하버드 CS50 파이썬 인공지능 과정
4월 21일 일요일	10:00	스탠포드 HAI 심포지엄

슈퍼 뉴로 TV는 24시간, 주 7일 생중계로 방송됩니다. AI 분야에서 "전자 피클"을 얻으려면 클릭하세요:

http://live.bilibili.com/26483094

위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!

다음주에 뵙겠습니다!

HyperAI 소개

HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.

* 1200개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공

* 300개 이상의 고전적이고 인기 있는 온라인 튜토리얼이 포함되어 있습니다.

* 100개 이상의 AI4Science 논문 사례 해석

* 500개 이상의 관련 용어 검색 지원

* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅

학습 여정을 시작하려면 공식 웹사이트를 방문하세요.

https://hyper.ai

Command Palette

주간 편집자 추천 | COIG-CQIA 데이터 세트가 온라인 상태이고 ComfyUI Wenshengtu 워크플로가 온라인에서 실행 중입니다.