중국어 학습 데이터 세트를 포함한 LLaMA 3 중국어 채팅을 한 번의 클릭으로 배포합니다. 2,000개 카테고리와 100만 개 이미지가 포함된 Food2K 데이터 세트 다운로드

최근 Llama 3가 오픈소스로 출시되어 AI 업계의 모든 이들을 들뜨게 했지만, 순수 중국어에 대한 지원이 그다지 좋지 않아 중국어 질문에 대답하기 위해 해당 언어로 유연하게 전환할 수 없습니다.
이번 주, hyper.ai는 Llama 3의 중국어 버전인 Llama 3 Chinese Chat의 배포 및 추론 튜토리얼을 출시했습니다."영어로 중국어 질문에 대답하는 것"의 어색함을 효과적으로 해결하고 대화를 더 자연스럽고 원활하게 만들어줍니다.튜토리얼에서는 모델과 환경을 배포했습니다. 추론을 경험하려면 API 주소만 열면 됩니다!
기대되네요, 꼭 시도해 볼게요:
동일한 중국어 교육 데이터 세트:
5월 27일부터 5월 31일까지 hyper.ai 공식 웹사이트가 업데이트됩니다.
* 고품질 공개 데이터 세트: 10
* 엄선된 고품질 튜토리얼: 2개
* 커뮤니티 기사 선정: 4개 기사
* 인기 백과사전 항목: 5개
* 6월 마감일 상위 컨퍼런스: 4
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. 라마 3 중국어 버전 데이터 세트
이 데이터 세트는 Llama 3 중국 데이터 세트의 컬렉션입니다. 데이터는 반딧불이 형식으로 균일하게 처리되었으며, 반딧불이 도구와 함께 사용하여 Llama 3 중국 모델을 직접 훈련할 수 있습니다.
직접 사용:https://go.hyper.ai/uJlfk
2. LCCC 대용량 중국어 대화 코퍼스
데이터 세트는 주로 두 부분으로 구성됩니다. LCCC 기반(680만 개의 대화)과 LCCC 대규모(1,200만 개의 대화). 연구팀은 데이터 세트의 대화 데이터 품질을 보장하기 위해 엄격한 데이터 필터링 프로세스를 설계했습니다. 필터링된 데이터 세트는 짧은 텍스트 대화 모델링에 대한 연구를 용이하게 할 수 있습니다.
직접 사용:https://go.hyper.ai/bDzEG
3. Food2K 대규모 식품 인식 데이터 세트
Food2K는 2,000개의 음식 카테고리와 100만 개가 넘는 이미지를 포함하는 대규모 음식 인식 데이터 세트입니다.
직접 사용: https://go.hyper.ai/TpfUJ
4. COYO-700M 이미지-텍스트 쌍 데이터 세트
COYO-700M은 7억 4,700만 개의 이미지-텍스트 쌍과 많은 다른 메타 속성을 포함하고 있으며, HTML 문서에서 많은 유익한 대체 텍스트와 연관된 이미지 쌍을 수집합니다.
직접 사용: https://go.hyper.ai/fWI1i
5. GLH-Bridge 대규모 원격탐사 이미지 브리지 타겟 탐지 데이터 세트
이 데이터 세트에는 6,000개의 대형 포맷 초고해상도 원격 감지 이미지가 포함되어 있으며, 다양한 배경에 걸쳐 약 60,000개의 다리 인스턴스가 수동으로 주석 처리되어 있습니다. 이미지 형식은 2048×2048-16384×16384 픽셀이며, 회전 상자와 수평 상자의 두 세트의 대상 감지 레이블이 있습니다.
직접 사용: https://go.hyper.ai/cHPeb
6. MMDialog 멀티모달 오픈 도메인 멀티턴 대화 데이터 세트
이 데이터 세트는 108만 개의 완전한 대화 세션, 4,000개 이상의 대화 주제, 153만 개의 반복되지 않는 이미지를 포함하는 대규모 멀티모달 오픈 도메인 대화 데이터 세트이며, 대화 세션당 평균 2.59개의 이미지가 포함되어 있습니다.
직접 사용: https://go.hyper.ai/iAbI2
7. 피마 인디언 당뇨병 데이터 세트
이 데이터 세트는 원래 미국 국립 당뇨병 및 소화기·신장 질환 연구소에서 나온 것이며, 그 목적은 데이터 세트에 포함된 특정 진단 측정값을 기반으로 환자가 당뇨병에 걸렸는지 진단적으로 예측하는 것입니다.
직접 사용: https://go.hyper.ai/XqJXe
8. LamaH-CE 중부 유럽 수문학 및 환경 과학 대규모 샘플 데이터 세트
LamaH-CE에는 859개 측정 유역과 다양한 (유역) 속성에 대한 유출 및 기상 시계열이 포함되어 있습니다. 수문기상 시계열은 일별, 시간별 분해능으로 제공되며 고품질 마커가 포함되어 있습니다. 모든 기상 및 대부분의 유량 시계열은 35년 이상에 걸쳐 있습니다.
직접 사용:https://go.hyper.ai/UPZvA
9. CAMELS-GB 영국 유역 속성 및 수문기상 시계열 데이터 세트
이 데이터 세트는 영국의 671개 유역에 대한 수문기상 시계열과 경관 속성을 제공합니다. 영국 국립 하천 유량 기록 보관소에서 강 유량, 유역 속성 및 유역 경계와 새로운 기상 시계열 및 유역 속성을 종합했습니다.
직접 사용:https://go.hyper.ai/KA29l
10. HQ-Edit 명령어 기반 이미지 편집 데이터 세트
HQ-Edit에는 약 20만 개의 편집 예제가 들어 있으며, 각각 입력 이미지, 출력 이미지 및 자세한 편집 지침이 포함되어 있습니다.
직접 사용:https://go.hyper.ai/xjahh
더 많은 공개 데이터 세트를 보려면 방문하세요.:
선택된 공개 튜토리얼
1. Llama 3-Chinese-Chat-8b 데모의 원클릭 배포
이 튜토리얼에서 사용하는 모델은 Llama 3의 첫 번째 중국어 버전으로, 중국어와 영어 사용자를 위해 세부적으로 조정된 지침을 제공하는 언어 모델이며, 롤플레잉 및 도구 사용과 같은 여러 기능을 갖추고 있습니다. 컨테이너를 복제하고 시작한 다음, 생성된 API 주소를 직접 복사하여 모델에서 추론을 경험해 보세요.
온라인으로 실행:https://go.hyper.ai/i3r7D
2. 온라인 튜토리얼丨소라의 기술적인 경로와 유사! 세계 최초 오픈소스 빈센트 비디오 DiT 모델 라떼 원클릭 배포
라떼는 2023년 11월에 오픈 소스로 공개된 혁신적인 비디오 생성 모델입니다. 세계 최초의 오픈 소스 빈센트 비디오 DiT인 라떼는 유망한 성과를 달성했습니다. 이 튜토리얼은 Latte 프로젝트의 데모입니다.
온라인 실행: https://go.hyper.ai/LFfmt
B 스테이션 생방송 미리보기
Apple은 6월 10일부터 14일까지 WWDC 2024를 개최합니다. 모든 사람이 Apple에 대한 심층적인 정보를 얻을 수 있도록 돕기 위해 Super Neurological B Station Live Room에서는 지난 몇 년간의 WWDC 컨퍼런스, 임원 인터뷰, 관련 다큐멘터리 및 기타 풍부한 콘텐츠를 다루는 "Apple Special" 비디오를 계속 방송할 예정입니다.당시 차오센징은 비디오 계정과 빌리빌리에서도 생중계할 예정이니 지금 예약하고 놓치지 마세요~

아래 표는 편집자가 선정한 다음주 생방송 콘텐츠 미리보기입니다↓↓↓
날짜 | 시간 | 콘텐츠 |
6월 1일 월요일 | 18:00 | 스티브 잡스 |
6월 2일 화요일 | 18:00 | Apple을 Apple답게 만드는 것은 무엇인가 |
6월 3일 수요일 | 18:00 | 스티브 잡스 vs 빌 게이츠 인터뷰 |
6월 4일 목요일 | 18:00 | 아이폰 첫 출시 |
6월 5일 금요일 | 18:00 | 스티브 잡스의 역사 |
6월 6일 토요일 | 18:00 | 애플이 거의 파산 직전까지 갔던 상황에서 살아남은 비결 |
6월 7일 일요일 | 18:00 | 팀 쿡의 역사 |
슈퍼 뉴로 TV는 24시간, 주 7일 생중계로 방송됩니다. AI 분야에서 "전자 피클"을 얻으려면 클릭하세요:
http://live.bilibili.com/26483094
커뮤니티 기사
1. [데이터셋 요약] 기상청이 최초로 훈련용 데이터 카탈로그를 공개했습니다! CAMELS 미국 천문 기상 데이터 세트 및 기타 온라인 공식 웹사이트
지난주 중국 기상청은 처음으로 "인공지능 기상대형 모델 훈련을 위한 특별 데이터 목록"을 공개했는데, 여기에는 엄청난 양의 기상 데이터가 모였습니다. 이 카탈로그는 현재 기상청 공식 홈페이지에서 다운로드할 수 있습니다. 또한, HyperAI는 모든 사람이 관련 데이터 리소스를 이해하고 활용할 수 있도록 돕기 위해 이번 주에 10개의 고품질 기상 재해 데이터 세트를 편집하여 관련 연구의 진전을 더욱 촉진하고 기상 연구의 새로운 장을 열었습니다.
자세한 정보를 얻으세요:https://go.hyper.ai/kK87m
중국과학원 산하 청두 산악재해 및 환경연구소의 오우양차오쥔 연구팀은 AI 기반 유출 및 홍수 예측 모델인 ED-DLSTM을 제안했습니다. 그들은 유역과 기상 요인의 정적 속성을 인코딩하고, 전 세계 2,000개 이상의 수문 관측소에서 수집한 데이터를 모델 훈련에 사용하여 전 세계적으로 모니터링 데이터가 있는 유역과 없는 유역의 유출 예측 문제를 해결하려고 시도했습니다. 이 글은 연구에 대한 자세한 해석과 공유입니다.
전체 보고서 보기:https://go.hyper.ai/eG6H5
3. 뇌-컴퓨터 인터페이스: 현대 의학의 플러그인이자 마비 환자의 도박
청화대학, 저장대학, 스탠포드대학, 브라운대학, 존스홉킨스대학 등 국내외 대학에서 뇌-컴퓨터 인터페이스에 대한 관련 연구가 진행되었습니다. 본 논문은 개념부터 시작하여 뇌-컴퓨터 인터페이스 구현의 세 가지 주요 형태, 국내외 유명 대학의 구체적인 연구 사례, 뇌-컴퓨터 인터페이스의 윤리와 안전성 등을 소개합니다.
전체 보고서 보기:https://go.hyper.ai/W3pPf
4. 최고의 천문학 저널인 MNRAS에 게재되었습니다! 중국과학원 상하이 천문대는 AI를 사용하여 99.8%의 탐지 정확도로 107개의 중성탄소 흡수선을 발견했습니다.
중국과학원 상하이 천문대의 연구원인 게 지안이 이끄는 팀은 슬론 스카이 서베이 III에서 공개된 데이터에서 딥러닝 방법을 사용하여 중성 탄소 흡수선을 찾아냈으며, 이를 통해 초기 은하의 차가운 가스 구름 구성에 대한 미스터리를 풀고 초기 우주에서 107개의 중성 탄소 흡수선 사례를 발견했습니다. 이 글은 연구에 대한 자세한 해석과 공유입니다.
전체 보고서 보기:https://go.hyper.ai/qirkz
인기 백과사전 기사
1. 시대
2. 신경 복사장(NeRF)
3. 스케일링 법칙
4. YOLOv10 실시간 종단간 객체 감지
5. 콜모고로프-아놀드 네트워크
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:
https://hyper.ai/events
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1200개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 300개 이상의 고전적이고 인기 있는 온라인 튜토리얼이 포함되어 있습니다.
* 100개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.
마지막으로 "크리에이터 인센티브 프로그램"을 추천드립니다. 관심 있는 친구들은 QR 코드를 스캔하여 참여할 수 있습니다!