Wöchentliche Empfehlungen Der Redaktion | FewJoint-Benchmark-Datensatz Gestartet, Ministerium Für Wissenschafts- Und Technologieaufsicht Veröffentlicht Neue KI-Vorschriften

Unter Few-Shot-Learning versteht man die Fähigkeit, genau wie Menschen mit sehr wenigen Beispielen neue Aufgaben zu erlernen und zu meistern. Dieses Feld ist in der Community des maschinellen Lernens zu einem heißen Thema geworden und gilt als eine der wichtigsten Richtungen, um die maschinelle Intelligenz näher an die menschliche Intelligenz heranzuführen.Das Harbin Institute of Technology hat den FewJoint-Benchmark-Datensatz eingeführt, der einen öffentlichen Bewertungs-Benchmark für die Bewertung kleiner NLP-Stichproben bietet.Dieser Datensatz ist jetzt auf hyper.ai verfügbar. Auf hyper.ai stehen weitere NLP-Datensätze für das Training großer chinesischer Modelle zum Download bereit. Werfen wir einen Blick darauf!
Vom 29. Januar bis 2. Februar gibt es Updates auf der offiziellen Website von hyper.ai:
* Hochwertige öffentliche Datensätze: 10
* AI4S-Papierhüllen: 3
* Beliebte Enzyklopädieeinträge: 10
Besuchen Sie die offizielle Website:hyper.ai
Ausgewählte öffentliche Datensätze
1. FewJoint-Benchmark-Datensatz für kleine Stichproben
Der FewJoint-Benchmark-Datensatz ist eine Sammlung aus echten Benutzerkorpusse und von Experten erstellten Korpusse der offenen iFlytek AIUI-Plattform (im Verhältnis von ungefähr 3:7). Es deckt 59 echte Domänen ab und ist derzeit einer der Konversationsdatensätze mit den meisten Domänen.
Direkte Verwendung:
https://hyper.ai/datasets/29239
2. 100 PoisonMpts Chinesischer Datensatz zur Governance großer Modelle
100 PoisonMpts ist der branchenweit erste groß angelegte Open-Source-Datensatz zur Sprachmodellverwaltung auf Chinesisch. Dutzende namhafter Experten und Wissenschaftler bilden die erste Gruppe der Annotationsingenieure „100 Flaschen Gift für die KI“. Die Kommentatoren stellten jeweils 100 knifflige Fragen, die zu voreingenommenen und diskriminierenden Antworten führten, und kommentierten die Antworten des großen Modells, wobei sie den Angriff und die Verteidigung mit KI von „Vergiftung“ bis „Entgiftung“ vervollständigten.
Direkte Verwendung:
https://hyper.ai/datasets/29203
3. CLUE Benchmark-Datensatz zur Bewertung des chinesischen Sprachverständnisses
CLUE (A Chinese Language Understanding Evaluation Benchmark) ist ein Datensatz, der zum Trainieren, Verifizieren und Testen von Aufgaben zum Verständnis der chinesischen Grammatik verwendet wird.
Direkte Verwendung:
https://hyper.ai/datasets/29094
4. Wikipedia Wikipedia-Datensatz
Dieser Datensatz besteht aus Wikipedia-Dumps, mit einer Teilmenge pro Sprache und jeder Teilmenge, die mit einer Spaltenaufteilung verknüpft ist. Jedes Beispiel enthält den Inhalt eines vollständigen Wikipedia-Artikels, der bereinigt wurde, um Markup und unerwünschte Teile (wie „Referenzen“ usw.) zu entfernen.
Direkte Verwendung:
https://hyper.ai/datasets/28528
5. CCI Chinesisches Internetkorpus
Die Chinese Corpora Internet (CCI) bestehen aus hochwertigen, vertrauenswürdigen Quellen von Internet-Websites auf dem chinesischen Festland. CCI unterzieht die Daten einer gründlichen Bereinigung und Deduplizierung und führt gezielte Tests und Filterungen hinsichtlich der Inhaltsqualität durch.
Direkte Verwendung:
https://hyper.ai/datasets/29186
6. PKU Datensatz zur Wortsegmentierung in vereinfachtem Chinesisch
Der SIGHAN 2005-Datensatz, die International Chinese Automatic Word Segmentation Evaluation (kurz SIGHAN Evaluation), integriert Wortsegmentierungsdatensätze mehrerer Institutionen. Dieser Datensatz wurde gemeinsam von Microsoft Research China, der Peking University, der City University of Hong Kong und der Academia Sinica in Taiwan veröffentlicht und wird zum Trainieren und Evaluieren chinesischer Wortsegmentierungsmodelle verwendet. Unter ihnen ist PKU ein vereinfachter chinesischer Datensatz zur Wortsegmentierung.
Direkte Verwendung:
https://hyper.ai/datasets/29168
7. Chinese-Poetry Die umfassendste Datenbank chinesischer klassischer Poesie
Dieser Datensatz ist derzeit die umfassendste Datenbank zur klassischen chinesischen Literatur und umfasst 55.000 Tang-Gedichte, 260.000 Singgedichte, 21.000 Singgedichte und andere klassische Literatur. Zu den Dichtern zählen fast 14.000 antike Dichter aus der Tang- und Song-Dynastie sowie 15.000 antike Lyriker aus der Song-Dynastie. Die Daten stammen aus dem Internet.
Direkte Verwendung:
https://hyper.ai/datasets/29257
8. PD&CFT-Datensatz zum chinesischen Leseverständnis
Dieser Datensatz ist der erste chinesische Leseverständnisdatensatz, der Textinhalte aus People's Daily und Children's Fairy Tale (PD&CFT) enthält.
Direkte Verwendung:
https://hyper.ai/datasets/29260
Weitere aktualisierte Datensätze dieser Woche finden Sie unter:
WissenschaftKI Ausgewählte Fallstudien
Ein Forschungsteam des First Affiliated Hospital der Sun Yat-sen University und des Institute of Advanced Technology des USTC hat ein Deep-Learning-Modell vorgeschlagen – Graph Signal Processing-Graph Convolutional Networks (GSP-GCNs), das ereignisbezogene EEG-Daten aus spezifischen Aufgaben der Tonregulierung zur Diagnose der Parkinson-Krankheit verwendet. Das entsprechende Paper ist in der Fachzeitschrift „Nature“ erschienen.
Den vollständigen Bericht ansehen:
Am 21. Dezember 2023 veröffentlichte die Aufsichtsabteilung des Ministeriums für Wissenschaft und Technologie die „Richtlinien für verantwortungsvolles Forschungsverhalten (2023)“, die den Einsatz von KI und anderen Technologien in der wissenschaftlichen Forschung als Reaktion auf brisante gesellschaftliche Fragen wie künstliche Intelligenz und die Veröffentlichung wichtiger Ergebnisse regeln.
Den vollständigen Bericht ansehen:
Forscher vom Institut für Halbleiter der Chinesischen Akademie der Wissenschaften betrachteten die Lösung der Ausdrucksstruktur als Klassifizierungsproblem und lösten es durch überwachtes Lernen. Sie schlugen ein symbolisches Netzwerk namens DeepSymNet zur Darstellung symbolischer Ausdrücke vor. Im Vergleich zu mehreren gängigen SR-Algorithmen, die auf überwachtem Lernen basieren, verwendet DeepSymNet kürzere Beschriftungen, reduziert den Vorhersagesuchraum und verbessert die Robustheit des Algorithmus. Verwandte Artikel wurden im „IEEE“-Journal veröffentlicht.
Den vollständigen Bericht ansehen:
Beliebte Enzyklopädieartikel
1. Repräsentationslernen
2. Lang- und Kurzzeitgedächtnis Langzeit-Kurzzeitgedächtnis
3. Die Methode der kleinsten Quadrate
4. Grid-Computing Grid-Computing
5. Reziproke Rangfusion (RRF)
Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:
Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!
Bis nächste Woche!
Über HyperAI
HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:
* Bereitstellung von inländischen beschleunigten Download-Knoten für über 1200 öffentliche Datensätze
* Enthält über 300 klassische und beliebte Online-Tutorials
* Interpretation von über 100 AI4Science-Papierfällen
* Unterstützt die Suche nach über 500 verwandten Begriffen
* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China
Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen: