HyperAI초신경

소수 학습이란 인간과 마찬가지로 매우 적은 샘플로 새로운 작업을 학습하고 숙달하는 능력을 말합니다. 이 분야는 머신 러닝 커뮤니티에서 화제가 되고 있으며, 머신 지능을 인간 지능에 더 가깝게 만드는 주요 방향 중 하나로 여겨진다.하얼빈 공업대학은 NLP 소규모 샘플 평가를 위한 공개 평가 벤치마크를 제공하는 FewJoint 벤치마크 데이터 세트를 출시했습니다.이 데이터 세트는 이제 hyper.ai에서 사용할 수 있습니다. hyper.ai에서 다운로드할 수 있는 중국 대규모 모델 훈련을 위한 더 많은 NLP 데이터 세트가 있습니다. 한번 살펴보죠!

1월 29일부터 2월 2일까지 hyper.ai 공식 웹사이트가 업데이트되었습니다.

* 고품질 공개 데이터 세트: 10

* AI4S 종이 케이스 : 3개

* 인기 백과사전 항목: 10개

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. FewJoint 소규모 샘플 벤치마크 데이터 세트

FewJoint 벤치마크 데이터 세트는 iFlytek AIUI 오픈 플랫폼의 실제 사용자 코퍼스와 전문가가 구성한 코퍼스를 모아 만든 것입니다(비율은 약 3:7). 이 데이터 세트는 59개의 실제 도메인을 포괄하고 있으며, 현재 가장 많은 도메인을 보유한 대화 데이터 세트 중 하나입니다.

직접 사용:

https://hyper.ai/datasets/29239

2. 100 PoisonMpts 중국 대규모 모델 거버넌스 데이터 세트

100 PoisonMpts는 업계 최초의 대규모 언어 모델 거버넌스 오픈 소스 중국어 데이터 세트입니다. 수십 명의 유명 전문가와 학자들이 "AI를 위한 100병의 독" 주석 엔지니어의 첫 번째 그룹을 구성했습니다. 주석자들은 각자 편향되고 차별적인 답변을 유도하는 100개의 까다로운 질문을 하고, 대규모 모델의 답변에 주석을 달아 AI를 통한 "중독"에서 "해독"까지의 공격과 방어를 완료했습니다.

직접 사용:

https://hyper.ai/datasets/29203

3. CLUE 중국어 이해 평가 벤치마크 데이터 세트

CLUE(중국어 이해 평가 벤치마크)는 중국어 문법 이해 과제의 훈련, 검증, 테스트에 사용되는 데이터 세트입니다.

직접 사용:

https://hyper.ai/datasets/29094

4. 위키피디아 위키피디아 데이터 세트

이 데이터 세트는 언어당 하나의 하위 집합으로 구성되고 각 하위 집합은 열 분할을 통해 연결되어 있는 위키피디아 덤프에서 구성되었습니다. 각 예시에는 위키백과 문서 전체의 내용이 담겨 있으며, 마크업과 원치 않는 부분(예: "참조")이 제거되어 정리되었습니다.

직접 사용:

https://hyper.ai/datasets/28528

5. CCI 중국 인터넷 코퍼스

중국 인터넷 자료 집합(CCI)은 중국 본토의 인터넷 웹사이트에서 수집한 고품질의 신뢰할 수 있는 출처로 구성되어 있습니다. CCI는 엄격한 데이터 정리 및 중복 제거를 거치고, 콘텐츠 품질에 대한 타깃 테스트와 필터링을 실시합니다.

직접 사용:

https://hyper.ai/datasets/29186

6. PKU 간체 중국어 단어 분할 데이터 세트

SIGHAN 2005 데이터 세트, 즉 국제 중국어 자동 단어 분할 평가(SIGHAN Evaluation)는 여러 기관의 단어 분할 데이터 세트를 통합한 것입니다. 이 데이터 세트는 Microsoft Research China, 베이징대학교, 홍콩시립대학교, 대만 중앙연구원이 공동으로 공개한 것으로, 중국어 단어 분할 모델의 학습 및 평가에 사용됩니다. 그 중 PKU는 간체 중국어 단어 분할 데이터 세트입니다.

직접 사용:

https://hyper.ai/datasets/29168

7. Chinese-Poetry 중국 고전 시에 대한 가장 포괄적인 데이터베이스

이 데이터 세트는 현재 중국 고전 문학에 대한 가장 포괄적인 데이터베이스로, 당시 55,000편, 송시 260,000편, 송시 21,000편과 기타 고전 문학을 포함하고 있습니다. 시인에는 당나라와 송나라의 고대 시인이 약 14,000명, 송나라의 고대 서정시인이 1,500명 포함됩니다. 해당 자료는 인터넷에서 얻었습니다.

직접 사용:

https://hyper.ai/datasets/29257

8. PD&CFT 중국어 독해 이해 데이터 세트

이 데이터 세트는 People's Daily와 Children's Fairy Tale(PD&CFT)의 텍스트 콘텐츠를 포함하는 최초의 중국어 독해 데이터 세트입니다.

직접 사용:

https://hyper.ai/datasets/29260

이번 주에 더 업데이트된 데이터세트를 보려면 방문하세요.:

https://hyper.ai/datasets

사이언스AI 선택된 사례 연구

1.파킨슨병 조기진단 정확도는 90.2%로 높아졌습니다. 심천 선진기술원과 중산제일병원이 공동으로 GSP-GCNs 모델을 제안했습니다.

중산대학 제1부속병원과 USTC 선진기술연구소의 연구팀은 톤 조절과 관련된 특정 작업에서 얻은 이벤트 관련 EEG 데이터를 사용하여 파킨슨병을 진단하는 딥러닝 모델인 그래프 신호 처리-그래프 합성 신경망(GSP-GCN)을 제안했습니다. 해당 논문은 저널 "네이처"에 게재되었습니다.

전체 보고서 보기:

https://hyper.ai/news/29189

2. 과학기술부가 나서요! 연구자를 위한 AIGC 사용 설명서가 출시되었으며 학계에서는 AI 총잡이에 대한 경계를 강화하기 시작했습니다.

2023년 12월 21일, 과학기술부 감독부문은 인공지능 및 주요 성과 발표 등 사회적으로 큰 관심을 모으는 이슈에 대응하여 과학연구에 인공지능 및 기타 기술을 적용하는 것을 규제하는 '책임 있는 연구 행위 지침(2023)'을 발표했습니다.

전체 보고서 보기:

https://hyper.ai/news/29228

3. 중국과학원 반도체연구소 논문이 TNNLS 최고 저널에 다시 게재되어 수학적 표현 탐구에 새로운 관점을 제공했습니다.

중국과학원 반도체연구소의 연구원들은 표현 구조의 해결책을 분류 문제로 간주하고 지도 학습을 통해 이를 해결했으며, 기호 표현을 표현하기 위해 DeepSymNet이라는 기호 네트워크를 제안했습니다. 지도 학습을 기반으로 한 여러 인기 있는 SR 알고리즘과 비교했을 때, DeepSymNet은 더 짧은 레이블을 사용하고, 예측 검색 공간을 줄이며, 알고리즘의 견고성을 향상시킵니다. 관련 논문은 "IEEE" 저널에 게재되었습니다.

전체 보고서 보기:

https://hyper.ai/news/29243

인기 백과사전 기사

1. 표현 학습

2. 장기 기억과 단기 기억 장기 단기 기억

3. 최소제곱법

4. 그리드 컴퓨팅 그리드 컴퓨팅

5. 상호 순위 융합(RRF)

다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

https://hyper.ai/wiki

위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!

다음주에 뵙겠습니다!

HyperAI 소개

HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.

* 1200개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공

* 300개 이상의 고전적이고 인기 있는 온라인 튜토리얼이 포함되어 있습니다.

* 100개 이상의 AI4Science 논문 사례 해석

* 500개 이상의 관련 용어 검색 지원

* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅

학습 여정을 시작하려면 공식 웹사이트를 방문하세요.

https://hyper.ai/

Command Palette

주간 편집자 추천 | FewJoint 벤치마크 데이터 세트 출시, 과학기술부 감독부, 새로운 AI 규정 발표