HyperAI

Wöchentliche Empfehlungen Der Redaktion | FewJoint-Benchmark-Datensatz Gestartet, Ministerium Für Wissenschafts- Und Technologieaufsicht Veröffentlicht Neue KI-Vorschriften

vor einem Jahr
Information
zhaorui
特色图像

Unter Few-Shot-Learning versteht man die Fähigkeit, genau wie Menschen mit sehr wenigen Beispielen neue Aufgaben zu erlernen und zu meistern. Dieses Feld ist in der Community des maschinellen Lernens zu einem heißen Thema geworden und gilt als eine der wichtigsten Richtungen, um die maschinelle Intelligenz näher an die menschliche Intelligenz heranzuführen.Das Harbin Institute of Technology hat den FewJoint-Benchmark-Datensatz eingeführt, der einen öffentlichen Bewertungs-Benchmark für die Bewertung kleiner NLP-Stichproben bietet.Dieser Datensatz ist jetzt auf hyper.ai verfügbar. Auf hyper.ai stehen weitere NLP-Datensätze für das Training großer chinesischer Modelle zum Download bereit. Werfen wir einen Blick darauf!

Vom 29. Januar bis 2. Februar gibt es Updates auf der offiziellen Website von hyper.ai:

* Hochwertige öffentliche Datensätze: 10

* AI4S-Papierhüllen: 3

* Beliebte Enzyklopädieeinträge: 10

Besuchen Sie die offizielle Website:hyper.ai

Ausgewählte öffentliche Datensätze

1FewJoint-Benchmark-Datensatz für kleine Stichproben

Der FewJoint-Benchmark-Datensatz ist eine Sammlung aus echten Benutzerkorpusse und von Experten erstellten Korpusse der offenen iFlytek AIUI-Plattform (im Verhältnis von ungefähr 3:7). Es deckt 59 echte Domänen ab und ist derzeit einer der Konversationsdatensätze mit den meisten Domänen.

Direkte Verwendung:

https://hyper.ai/datasets/29239

2. 100 PoisonMpts Chinesischer Datensatz zur Governance großer Modelle

100 PoisonMpts ist der branchenweit erste groß angelegte Open-Source-Datensatz zur Sprachmodellverwaltung auf Chinesisch. Dutzende namhafter Experten und Wissenschaftler bilden die erste Gruppe der Annotationsingenieure „100 Flaschen Gift für die KI“. Die Kommentatoren stellten jeweils 100 knifflige Fragen, die zu voreingenommenen und diskriminierenden Antworten führten, und kommentierten die Antworten des großen Modells, wobei sie den Angriff und die Verteidigung mit KI von „Vergiftung“ bis „Entgiftung“ vervollständigten.

Direkte Verwendung:

https://hyper.ai/datasets/29203

3. CLUE Benchmark-Datensatz zur Bewertung des chinesischen Sprachverständnisses

CLUE (A Chinese Language Understanding Evaluation Benchmark) ist ein Datensatz, der zum Trainieren, Verifizieren und Testen von Aufgaben zum Verständnis der chinesischen Grammatik verwendet wird.

Direkte Verwendung:

https://hyper.ai/datasets/29094

4. Wikipedia Wikipedia-Datensatz

Dieser Datensatz besteht aus Wikipedia-Dumps, mit einer Teilmenge pro Sprache und jeder Teilmenge, die mit einer Spaltenaufteilung verknüpft ist. Jedes Beispiel enthält den Inhalt eines vollständigen Wikipedia-Artikels, der bereinigt wurde, um Markup und unerwünschte Teile (wie „Referenzen“ usw.) zu entfernen.

Direkte Verwendung:

https://hyper.ai/datasets/28528

5. CCI Chinesisches Internetkorpus

Die Chinese Corpora Internet (CCI) bestehen aus hochwertigen, vertrauenswürdigen Quellen von Internet-Websites auf dem chinesischen Festland. CCI unterzieht die Daten einer gründlichen Bereinigung und Deduplizierung und führt gezielte Tests und Filterungen hinsichtlich der Inhaltsqualität durch.

Direkte Verwendung:

https://hyper.ai/datasets/29186

6. PKU  Datensatz zur Wortsegmentierung in vereinfachtem Chinesisch

Der SIGHAN 2005-Datensatz, die International Chinese Automatic Word Segmentation Evaluation (kurz SIGHAN Evaluation), integriert Wortsegmentierungsdatensätze mehrerer Institutionen. Dieser Datensatz wurde gemeinsam von Microsoft Research China, der Peking University, der City University of Hong Kong und der Academia Sinica in Taiwan veröffentlicht und wird zum Trainieren und Evaluieren chinesischer Wortsegmentierungsmodelle verwendet. Unter ihnen ist PKU ein vereinfachter chinesischer Datensatz zur Wortsegmentierung.

Direkte Verwendung:

https://hyper.ai/datasets/29168

7. Chinese-Poetry Die umfassendste Datenbank chinesischer klassischer Poesie

Dieser Datensatz ist derzeit die umfassendste Datenbank zur klassischen chinesischen Literatur und umfasst 55.000 Tang-Gedichte, 260.000 Singgedichte, 21.000 Singgedichte und andere klassische Literatur. Zu den Dichtern zählen fast 14.000 antike Dichter aus der Tang- und Song-Dynastie sowie 15.000 antike Lyriker aus der Song-Dynastie. Die Daten stammen aus dem Internet.

Direkte Verwendung:

https://hyper.ai/datasets/29257

8. PD&CFT-Datensatz zum chinesischen Leseverständnis

Dieser Datensatz ist der erste chinesische Leseverständnisdatensatz, der Textinhalte aus People's Daily und Children's Fairy Tale (PD&CFT) enthält.

Direkte Verwendung:

https://hyper.ai/datasets/29260

Weitere aktualisierte Datensätze dieser Woche finden Sie unter:

https://hyper.ai/datasets

WissenschaftKI  Ausgewählte Fallstudien

1.Die Genauigkeit der Frühdiagnose der Parkinson-Krankheit hat sich auf 90,2% erhöht. Das Shenzhen Institute of Advanced Technology und das Zhongshan First Hospital haben gemeinsam das GSP-GCNs-Modell vorgeschlagen

Ein Forschungsteam des First Affiliated Hospital der Sun Yat-sen University und des Institute of Advanced Technology des USTC hat ein Deep-Learning-Modell vorgeschlagen – Graph Signal Processing-Graph Convolutional Networks (GSP-GCNs), das ereignisbezogene EEG-Daten aus spezifischen Aufgaben der Tonregulierung zur Diagnose der Parkinson-Krankheit verwendet. Das entsprechende Paper ist in der Fachzeitschrift „Nature“ erschienen.

Den vollständigen Bericht ansehen:

https://hyper.ai/news/29189

2. Das Ministerium für Wissenschaft und Technologie ergreift Maßnahmen! Das AIGC-Benutzerhandbuch für Forscher ist da, und die akademische Gemeinschaft beginnt, sich vor KI-Bewaffneten zu schützen

Am 21. Dezember 2023 veröffentlichte die Aufsichtsabteilung des Ministeriums für Wissenschaft und Technologie die „Richtlinien für verantwortungsvolles Forschungsverhalten (2023)“, die den Einsatz von KI und anderen Technologien in der wissenschaftlichen Forschung als Reaktion auf brisante gesellschaftliche Fragen wie künstliche Intelligenz und die Veröffentlichung wichtiger Ergebnisse regeln.

Den vollständigen Bericht ansehen:

https://hyper.ai/news/29228

3. Das Papier des Instituts für Halbleiter der Chinesischen Akademie der Wissenschaften wurde erneut im Top-Journal der TNNLS veröffentlicht und bietet eine neue Perspektive zur Erforschung mathematischer Ausdrücke

Forscher vom Institut für Halbleiter der Chinesischen Akademie der Wissenschaften betrachteten die Lösung der Ausdrucksstruktur als Klassifizierungsproblem und lösten es durch überwachtes Lernen. Sie schlugen ein symbolisches Netzwerk namens DeepSymNet zur Darstellung symbolischer Ausdrücke vor. Im Vergleich zu mehreren gängigen SR-Algorithmen, die auf überwachtem Lernen basieren, verwendet DeepSymNet kürzere Beschriftungen, reduziert den Vorhersagesuchraum und verbessert die Robustheit des Algorithmus. Verwandte Artikel wurden im „IEEE“-Journal veröffentlicht.

Den vollständigen Bericht ansehen:

https://hyper.ai/news/29243

Beliebte Enzyklopädieartikel

1. Repräsentationslernen

2. Lang- und Kurzzeitgedächtnis Langzeit-Kurzzeitgedächtnis

3. Die Methode der kleinsten Quadrate

4. Grid-Computing Grid-Computing

5. Reziproke Rangfusion (RRF)

Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:

https://hyper.ai/wiki

Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!

Bis nächste Woche!

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung von inländischen beschleunigten Download-Knoten für über 1200 öffentliche Datensätze

* Enthält über 300 klassische und beliebte Online-Tutorials

* Interpretation von über 100 AI4Science-Papierfällen

* Unterstützt die Suche nach über 500 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai/