초대형 모델 리소스 컬렉션 | 30개의 고품질 NLP 데이터 세트와 모델, 한 번의 클릭으로 사용할 수 있는 8개의 데모, 수집에 권장!

지난 2년 동안 대형 모델의 인기는 꾸준히 상승해 왔으며, 더 다양한 분야에서 연구가 진행되기 시작했습니다. 업계 전반의 급속한 발전에 따라, 점점 더 많은 대형 오픈소스 모델이 시장에 쏟아져 들어오고 있으며, 이는 상위 레벨 애플리케이션의 확장을 더욱 촉진하고 있습니다.
개발자의 경우, 이후의 연구 개발과 모델 미세 조정을 위해 고품질의 대규모 모델과 데이터 세트를 선택하는 것이 매우 중요합니다. 모든 사람이 개발 요구 사항에 맞는 모델과 데이터 세트를 선택하고 다운로드할 수 있도록 하기 위해HyperAI는 여러분을 위해 대규모 모델과 관련된 몇 가지 리소스를 모아두었습니다.
* 고품질 공개 데이터 세트: 15
* 고품질 오픈소스 모델 : 15개
* 고품질 튜토리얼 선택: 8개
더 많은 대형 모델 리소스를 보려면 공식 웹사이트를 방문하세요.:하이퍼.AI
데이터 세트 선택
1. seq-monkey 시퀀스 원숭이 오픈소스 데이터 세트 1.0
Sequence Monkey 데이터 세트는 Sequence Monkey 모델을 훈련하는 데 사용되는 데이터 세트로, 중국어 일반 텍스트 코퍼스, 고대 시 번역 코퍼스, 텍스트 생성 코퍼스 등의 영역을 포괄합니다.
직접 사용:https://hyper.ai/datasets/30139
2. IEPile 대규모 정보 추출 코퍼스
IEPile은 저장대학교에서 개발한 대규모 고품질 이중 언어(중국어와 영어) 정보 추출(IE) 교육 미세 조정 데이터 세트로, 의학과 금융 등 다양한 분야를 포괄합니다.
직접 사용:https://hyper.ai/datasets/30064
3. LongAlign-10K 대형 모델 긴 컨텍스트 정렬 데이터 세트
LongAlign-10k는 청화대학교에서 제안되었습니다. 이는 장기 컨텍스트 정렬 작업에서 대규모 모델이 직면하는 과제를 해결하기 위해 설계된 데이터 세트입니다. 여기에는 길이가 8k에서 64k 사이인 10,000개의 긴 명령어 데이터가 포함되어 있습니다.
직접 사용:https://hyper.ai/datasets/30247
4. Dianping 데이터 세트
이 데이터 세트에는 24만 개의 레스토랑에 대한 54만 명의 사용자가 작성한 440만 개의 리뷰 또는 평가가 포함되어 있습니다. 추천 시스템, 감정/의견/댓글 경향 분석 등의 작업에 사용할 수 있습니다.
직접 사용:https://hyper.ai/datasets/29993
5. Amazon 사용자 리뷰 데이터 세트
이 데이터 세트에는 Amazon 웹사이트에서 1,100개 이상의 카테고리에 속하는 520,000개 제품에 대한 142만 명의 사용자가 작성한 720만 개의 리뷰 또는 평가가 포함되어 있습니다. 추천 시스템 및 감정/의견/리뷰 경향 분석과 같은 작업에 사용할 수 있습니다.
직접 사용:https://hyper.ai/datasets/30009
6. PD&CFT People’s Daily 중국어 독해 데이터 세트
이 데이터 세트는 People's Daily와 Children's Fairy Tale(PD&CFT)을 포함하는 최초의 중국어 독해 데이터 세트입니다.
직접 사용:https://hyper.ai/datasets/29260
7. Toutiao 중국어 텍스트 분류 데이터 세트
이 데이터 세트는 투티아오 중국어 뉴스(단문)의 분류 데이터 세트입니다. 데이터 소스는 Toutiao 클라이언트입니다. 여기에는 15개 카테고리와 382,688개의 텍스트가 포함되어 있습니다.
직접 사용:https://hyper.ai/datasets/29517
8. FewJoint 벤치마크 데이터셋
이 데이터 세트는 iFlytek AIUI 오픈 플랫폼에서 나왔습니다. 실제 사용자의 코퍼스와 전문가가 구성한 코퍼스(비율 약 3:7)가 포함되어 있으며, 총 59개의 실제 도메인이 있습니다. 이는 현재 가장 많은 도메인을 보유한 대화 데이터 세트 중 하나입니다.
직접 사용:https://hyper.ai/datasets/29239
9. PAWS-X: 의역 식별을 위한 교차 언어 적대적 데이터 세트
데이터 세트에는 프랑스어, 스페인어, 독일어, 중국어, 일본어, 한국어 등 6개 언어로 번역된 23,659개의 인간 번역 PAWS 평가 쌍과 296,406개의 기계 번역 훈련 쌍이 포함되어 있습니다. 모든 번역 쌍은 PAWS-Wiki의 예시에서 파생되었습니다.
직접 사용:https://hyper.ai/datasets/29264
10. 위키피디아
이 데이터 세트는 위키피디아 덤프에서 구축되었으며 56개 언어를 포함하고 있으며, 언어당 하나의 하위 집합이 있고 각 하위 집합에는 하나의 훈련 분할이 들어 있습니다. 각 예시에는 위키백과 문서 전체의 내용이 담겨 있으며, 마크업과 원치 않는 부분(참조 등)을 제거하여 정리했습니다.
직접 사용:https://hyper.ai/datasets/28528
11. RJUA-QA: 최초의 중국 의학 전문 분야 질의응답 추론 데이터 세트
RJUA-QA 데이터 세트에는 총 2,132개의 질문-답변 쌍이 포함되어 있습니다. 각 질문-답변 쌍은 임상 경험을 바탕으로 의사가 작성한 질문, 전문가가 제공한 답변, 그리고 관련된 추론 맥락으로 구성됩니다. 맥락 정보는 중국 비뇨기과 및 남성과학과 질환의 진단 및 치료에 관한 지침에서 가져왔습니다.
직접 사용:https://hyper.ai/datasets/28970
12. ShareGPT 90k 중국어 및 영어 이중 언어 인간-기계 질의응답 데이터 세트
ShareGPT-Chinese-English-90k는 실제적이고 복잡한 시나리오에서 사용자 질문을 다루는, 중국어와 영어를 병행하여 사용하는 고품질의 인간-기계 질의응답 데이터 세트입니다. 고품질 대화 모델을 훈련하는 데 사용할 수 있습니다.
직접 사용:
https://hyper.ai/datasets/29523
13. SMP-2017 중국어 대화 의도 인식 데이터셋
이 데이터 세트는 SMP2017 중국 인간-컴퓨터 대화 기술 평가(ECDT) 과제 1 데이터 세트입니다.
직접 사용:https://hyper.ai/datasets/29515
14. 중국시 중국 고전시집 데이터베이스
이 데이터 세트는 당시 55,000편, 송시 260,000편, 송시 21,000편을 비롯한 중국 고전 문학에 대한 가장 포괄적인 데이터베이스입니다.
직접 사용:https://hyper.ai/datasets/29257
15. MCFEND 중국 가짜 뉴스 탐지를 위한 다중 소스 벤치마크 데이터 세트
이 데이터 세트는 홍콩 침례대학교, 홍콩 중국대학교 및 기타 기관이 공동으로 구축한 다중 소스 중국 가짜 뉴스 탐지 벤치마크 데이터 세트입니다.
직접 사용:https://hyper.ai/datasets/30429
더 많은 공개 데이터 세트를 보려면 방문하세요.:
다양한 모델 선택
1. 믹스트랄-8x7B
이 모델은 Mistral 7B를 기반으로 Mistral AI가 출시한 대규모 언어 모델입니다.
직접 사용:https://openbayes.com/console/public/models/f1Ze9ci0tAZ/1/overview
2. C4AI 커맨드-R
C4AI Command-R은 Cohere와 Cohere For AI가 공동으로 개발한 350억 개의 매개변수를 가진 고성능 생성 모델입니다. 다국어 생성 기능과 고성능 RAG 기능을 결합한 Command-R은 언어 간 작업과 지식 집약적 작업에서 독보적인 이점을 제공합니다.
직접 사용:https://openbayes.com/console/public/models/moNFtsf3XUe/1/overview
3. 금융 빅모델 deepmoney-34B-chat
이 모델은 Yi-34B-200K를 기반으로 훈련되었으며, pt(전체 매개변수 훈련)와 sft(lora 미세 조정)의 두 단계로 나뉩니다.
직접 사용:https://openbayes.com/console/public/models/yiEoQipyFCK/1/overview
4. ChatGLM3 시리즈
ChatGLM3는 Zhipu AI와 Tsinghua University KEG Laboratory가 공동으로 출시한 대화 사전 학습 모델입니다.
채팅GLM3-6B
이 모델은 ChatGLM3 시리즈의 오픈 소스 모델로, 원활한 대화와 낮은 배포 임계값 등 이전 두 세대 모델의 많은 뛰어난 기능을 그대로 유지하고 있습니다.
직접 사용:https://openbayes.com/console/public/models/mHwG5TYJVTU/1/overview
ChatGLM3-6B-베이스
이 모델은 ChatGLM3-6B의 기본 모델로, 더욱 다양한 학습 데이터, 더욱 충분한 학습 단계, 더욱 합리적인 학습 전략을 채택했습니다.
직접 사용:https://openbayes.com/console/public/models/7CzPfTweYvU/1/overview
5. LLaVA-v1.5 시리즈
LLaVA는 시각 인코더와 대규모 언어 모델(Vicuna v1.5 13B)로 구성된 시각과 언어 간 다중 모드 변환이 가능한 모델입니다.
LLaVA-v1.5-7B
이 모델은 LLaVA-v1.5 제품군의 70억 개의 매개변수를 가진 모델입니다.
직접 사용:https://openbayes.com/console/public/models/ZRdv9aF1hGF/1/overview
LLaVA-v1.5-13B
이 모델은 LLaVA-v1.5 제품군의 130억 개의 매개변수를 가진 모델입니다.
직접 사용:https://openbayes.com/console/public/models/PagJNrY85MC/1/overview
6. Yi-34B 시리즈
Yi 시리즈 모델은 01.AI가 처음부터 학습한 오픈 소스 대규모 언어 모델입니다. 다음 모델 시리즈는 34B 크기에 해당하는 모델입니다.
이-34B-챗
이 모델은 Yi-34B 시리즈에 속하며, 다양한 대화 상황에 적합한 채팅 모델입니다.
직접 사용:https://openbayes.com/console/public/models/6FUjDvKGZNT/1/overview
Yi-34B-Chat-GGUF
이 모델은 Yi-34B-Chat의 GGUF 형식입니다.
직접 사용:https://openbayes.com/console/public/models/1QqoTcU07zG/1/overview
Yi-34B-Chat-4bits
이 모델은 Yi-34B-Chat 모델의 4비트 양자화 버전이며 소비자용 그래픽 카드(예: RTX3090)에서 직접 사용할 수 있습니다.
직접 사용:https://openbayes.com/console/public/models/JJCjA8x48ev/1/overview
7. Qwen Tongyi Qianwen 대형 모델 시리즈
Qwen은 Alibaba Cloud가 출시한 일련의 초대형 언어 모델로, 매개변수 개수가 다른 다양한 모델을 포함합니다. 여기에는 Qwen(기본 사전 학습된 언어 모델)과 Qwen-Chat(채팅 모델)이 포함되어 있으며, 채팅 모델은 인간의 정렬 기술을 사용하여 미세 조정됩니다.
Qwen1.5-1.8B-채팅
Qwen1.5는 Qwen2의 베타 버전으로, 매개변수 크기가 18억인 Qwen2 시리즈의 소규모 채팅 모델 버전입니다.
직접 사용:
https://openbayes.com/console/public/models/A83bxItlb1M/1/overview
Qwen-14B-Chat-Int4
Qwen-14B-Chat은 Tongyi Qianwen 대규모 모델 시리즈에서 140억 개의 매개변수를 갖는 채팅 모델입니다. 이 모델은 Int4 양자화 모델입니다.
직접 사용:https://openbayes.com/console/public/models/tlA61MKMb7C/1/overview
퀀-72B-챗
이 모델은 통이첸원 대형 모델 시리즈의 720억 매개변수 모델입니다.
직접 사용:https://openbayes.com/console/public/models/IyhI1wCMCvU/1/overview
Qwen-72B-Chat-Int4
이 모델은 Qwen-72B-Chat의 Int4 양자화 모델입니다.
직접 사용:https://openbayes.com/console/public/models/XVAkUec0H5e/1/overview
Qwen-72B-Chat-Int8
이 모델은 Qwen-72B-Chat의 Int8 양자화 모델입니다.
직접 사용:https://openbayes.com/console/public/models/LEnvRTil8Xe/1/overview
고품질 튜토리얼 선택
1. Qwen1.5-MoE를 온라인으로 실행하세요
Qwen1.5-MoE-A2.7B는 Tongyi Qianwen 팀이 출시한 Qwen 시리즈의 첫 번째 MoE 모델입니다. 이 튜토리얼은 데모 컨테이너입니다. Gradio Link를 사용하면 한 번의 클릭으로 대형 모델을 복제하여 경험할 수 있습니다.
온라인으로 실행:https://openbayes.com/console/public/tutorials/1xfftSx42TR
2. Qwen-14B-Chat-Int4 모델 Gradio 데모
이 튜토리얼은 Qwen-14B-Chat-Int4의 데모 컨테이너입니다. 한 번의 클릭으로 복제하고 Gradio 링크를 사용하여 대형 모델을 경험할 수 있습니다.
온라인으로 실행:https://openbayes.com/console/public/tutorials/hqe2P86oMDA
3. Qwen-1.8B-Chat-API-FT 모델 데모
이 튜토리얼에서는 주로 Qwen-1.8B-Chat 모델을 실행하는 방법과 미세 조정의 주요 프로세스를 보여줍니다.
온라인으로 실행:https://openbayes.com/console/public/tutorials/C8OUoAlBR1m
4. Qwen-72B-Chat-Int4 모델 Gradio 데모
이 튜토리얼은 Qwen-72B-Chat-Int4의 데모 컨테이너입니다. 한 번의 클릭으로 복제하고 Gradio 링크를 사용하여 대형 모델을 경험할 수 있습니다.
온라인으로 실행:https://openbayes.com/console/public/tutorials/Gr4tiYYq24K
5. Yi-34B-Chat의 양자화 모델을 온라인으로 실행하세요.
이 튜토리얼에서는 주로 LlamaEdge를 사용하여 Yi-34B-Chat 양적 모델을 실행하는 주요 프로세스를 보여줍니다.
온라인으로 실행:https://openbayes.com/console/public/tutorials/v6ZVAzejUCM
6. Deepmoney-34B-full 온라인 재무 모델 실행
Deepmoney는 금융 분야의 투자에 초점을 맞춘 대규모 언어 모델 프로젝트입니다. Deepmoney-34B-full은 Yi-34B-200K 모델을 기반으로 학습되었으며, pt(전체 매개변수 학습)와 sft(lora 미세 조정)의 두 단계로 나뉩니다. 이제 Super Neuro 공식 웹사이트에서 클릭 한 번으로 복제하여 사용할 수 있습니다.
온라인으로 실행:https://openbayes.com/console/public/tutorials/uBYYEnxdpce
7. Yi-9B 데모를 한 번 클릭으로 실행하세요
Yi-9B는 Yi 시리즈 중 가장 강력한 코드와 수학적 성능을 갖춘 모델입니다. 이 튜토리얼은 Yi-9B의 데모 컨테이너입니다.
온라인으로 실행:https://openbayes.com/console/public/tutorials/BitjtzfuNLb
8. ChatGLM2-6B의 빠른 배포
이 튜토리얼은 ChatGLM2-6B의 데모 컨테이너입니다. 한 번의 클릭으로 복제하고 Gradio 링크를 사용하여 대형 모델을 경험할 수 있습니다.
온라인으로 실행:https://openbayes.com/console/public/tutorials/KD5azt9z9tn
위에 나열된 내용은 빅모델 에디터가 선정한 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1200개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 300개 이상의 고전적이고 인기 있는 온라인 튜토리얼이 포함되어 있습니다.
* 100개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.