HyperAI

Wöchentliche Empfehlungen Der Redaktion | Microsoft Stellt Den Hochwertigen Mathematischen Datensatz Orca-Math Als Open Source Zur Verfügung, Das Forschungsteam Der Tsinghua-Universität Veröffentlicht Das Bedingte Denoising-Diffusionsmodell SPDiff

特色图像

Orca-Math ist ein von Microsoft Research veröffentlichtes mathematisches Denkmodell.Dieses Modell demonstriert den Wert kleinerer, spezialisierter Modelle in bestimmten Bereichen, in denen sie die Leistung größerer Modelle erreichen oder sogar übertreffen können.Microsoft hat vor Kurzem den mathematischen Textaufgaben-Datensatz Orca-Math-200K, der zum Trainieren von Orca-Math verwendet wird, als Open Source freigegeben. Es steht jetzt auf der offiziellen Website von hyper.ai zum Download bereit. Kommen Sie und erleben Sie es!

Vom 11. bis 15. März gibt es Updates auf der offiziellen Website von hyper.ai:

* Hochwertige öffentliche Datensätze: 10

* Hochwertige öffentliche Tutorials: 2

* Community-Artikelauswahl: 3 Artikel

* Beliebte Enzyklopädieeinträge: 10

Besuchen Sie die offizielle Website:hyper.ai

Ausgewählte öffentliche Datensätze

1. Orca-Math-200K Microsoft Math-Textaufgaben-Datensatz

Orca-Math-200K ist ein hochwertiger synthetischer Datensatz von Microsoft, der etwa 200.000 Mathematikfragen für die Grundschule enthält. Alle Antworten in diesem Datensatz werden mit Azure GPT4-Turbo generiert.

Direkte Verwendung:

https://my5353.com/30060

2. MULTI-Benchmark: Eine Bestenliste für multimodales Verständnis mit Text und Bildern

Bei diesem Datensatz handelt es sich um den multimodalen Benchmark MULTI der Shanghai Jiao Tong University, der die Fähigkeit großer multimodaler Modelle zum Verstehen komplexer Tabellen und Bilder sowie zum Schlussfolgern langer Texte bewerten soll. Der Test bietet multimodale Eingaben und erfordert entweder präzise oder offene Antworten, die einen realen Prüfungsstil widerspiegeln. MULTI enthält mehr als 18.000 Fragen und deckt eine Vielzahl von Aufgaben ab, von der Formelherleitung bis hin zur Bildanalyse und zum kreuzmodalen Denken.

Direkte Verwendung:

https://my5353.com/30062

3. IEPile-Korpus zur Extraktion umfangreicher Informationen 

IEPile ist ein umfangreicher, hochwertiger, zweisprachiger (Chinesisch und Englisch) Datensatz zur Feinabstimmung von Anweisungen zur Informationsextraktion (IE), der von der Zhejiang-Universität entwickelt wurde und drei zentrale Teilaufgaben abdeckt: Named Entity Recognition (NER), Relationsextraktion (RE) und Event Extraction (EE). Der Datensatz enthält etwa 2 Millionen Anweisungsbeispiele mit insgesamt etwa 320 Millionen Token, die mehrere Bereiche wie Allgemeinwissen, Medizin und Finanzen abdecken.

Direkte Verwendung:

https://my5353.com/30064

4. FFHQ-UV-Datensatz zu intrinsischen Gesichtsattributen für die 3D-Gesichtsrekonstruktion

FFHQ-UV-Intrinsic ist ein intrinsischer Datensatz zu Gesichtsattributen, der von Ubisoft LaForge auf Grundlage des FFHQ-UV-Datensatzes erstellt wurde. Der Datensatz enthält die intrinsischen Gesichtsmerkmale von 10.000 Personen, darunter diffuse Reflexion, spiegelnde Reflexion, Umgebungsverdeckung und Transluzenzkarten. Es handelt sich um den ersten öffentlich verfügbaren, groß angelegten Gesichtsdatensatz, der hochauflösende intrinsische Attribute bereitstellt.

Direkte Verwendung:

https://my5353.com/30113

5. GITQA Multimodal Graph Reasoning Frage-Antwort-Datensatz

GITQA ist der erste Datensatz zum Beantworten von Fragen zum logisch denkenden Denken mit visuellen Grafiken, der von der Hong Kong University of Science and Technology und der Southern University of Science and Technology erstellt wurde. Der Datensatz enthält mehr als 423.000 Frage-Antwort-Instanzen, von denen jede entsprechende Grafik-Text-Bild-Informationen und das entsprechende Frage-Antwort-Paar enthält.

Direkte Verwendung:

https://my5353.com/30116

6. SMolInstruct Feinabstimmungsdatensatz für chemische Anweisungen

SMolInstruct ist ein umfangreicher, umfassender und qualitativ hochwertiger Datensatz zur Feinabstimmung chemischer Anweisungen, der von der Ohio State University vorgeschlagen wurde. Der Datensatz enthält 14 verschiedene chemische Aufgaben, insgesamt mehr als 3 Millionen Proben und deckt 1,6 Millionen einzigartige Moleküle ab.

Direkte Verwendung:

https://my5353.com/30133

7. MusicPile Großer Musikdatensatz

MusicPile ist ein umfangreicher Vortrainingsdatensatz für Musiksprachen, der gemeinsam von der Multimodal Art Projection Research Community, Skywork AI und der Hong Kong University of Science and Technology veröffentlicht wurde. Der Datensatz enthält 5,17 Millionen Samples und ungefähr 4,16 Milliarden Token aus Quellen wie Musikbüchern, Musikuntertiteln auf YouTube, ABC-Notationswerken usw. MusicPile deckt ein breites Spektrum an allgemeinem Musikverständnis, Wissensfragen und -antworten sowie typischen musiktheoretischen Inhalten ab, die eine Schlüsselrolle bei der Verbesserung des Musikverständnisses und der Erstellungsfähigkeit des großen Modells spielen.

Direkte Verwendung:

https://my5353.com/30136

8. seq-monkey Sequenzaffe Open-Source-Datensatz 1.0

Sequence Monkey ist ein groß angelegtes Sprachmodell von Mobvoi. Der Sequence Monkey-Datensatz ist ein Datensatz, der zum Trainieren des Sequence Monkey-Modells verwendet wird. Einige der Datensätze wurden extrahiert und der Öffentlichkeit zugänglich gemacht: Zu den betroffenen Bereichen gehören: das allgemeine chinesische Textkorpus, das Übersetzungskorpus antiker Poesie und das Textgenerierungskorpus.

Direkte Verwendung:

https://my5353.com/30139

9. Douban-Datensatz für Kurzfilmrezensionen V2

Der Datensatz enthält mehr als 2 Millionen Kurzrezensionen zu 28 Filmen von der Douban-Filmwebsite. Es kann zur Textklassifizierung, Textclusterung, Stimmungsanalyse, zum Aufbau semantischer Netzwerke und in anderen Bereichen im Zusammenhang mit Web Mining oder NLP verwendet werden.

Direkte Verwendung:

https://my5353.com/30011

10. AdaDR – Datensatz aus dem Artikel „Drug Repositioning Based on Adaptive GCN Method“

Dieser Datensatz wird im Artikel „Drug Repositioning Based on Adaptive GCN Method“ verwendet. Um die Leistung des vorgeschlagenen Modells umfassend zu bewerten, verwendete das Forschungsteam vier Benchmark-Datensätze: Gdataset (Gottlieb et al. 2011), Cdataset (Luo et al. 2016), Ldataset (Yu et al. 2021) und LRSSL (Liang et al. 2017), die auf die Aufgabe der Arzneimittelneupositionierung angewendet werden können.

Direkte Verwendung:

https://my5353.com/30057

Weitere aktualisierte Datensätze dieser Woche finden Sie unter:

https://hyper.ai/datasets

Ausgewählte öffentliche Tutorials

1. Blumenklassifizierung mittels Transferlernen

Dieses Tutorial zeigt, wie Sie mithilfe von Transferlernen eine Bildklassifizierung anhand eines Datensatzes mit Blumenbildern durchführen. In diesem Tutorial verwenden wir ein vortrainiertes Convolutional Neural Network (CNN) als Merkmalsextraktor und erstellen darauf einen benutzerdefinierten Klassifikator, um die Blumenarten vorherzusagen.

Führen Sie das Tutorial online aus:

https://my5353.com/n30069

2. Quantisierung von Vision Transformers (Vit) für eine effiziente Bereitstellung: Strategien und Best Practices

Da die Nachfrage nach fortschrittlichen Computer-Vision-Systemen branchenübergreifend weiter steigt, ist der Einsatz von Vision Transformers in den Fokus von Forschern und Praktikern gerückt. Um das volle Potenzial dieser Modelle auszuschöpfen, ist jedoch ein tiefes Verständnis ihrer Architektur erforderlich. Darüber hinaus ist es ebenso wichtig, Optimierungsstrategien für den effektiven Einsatz dieser Modelle zu entwickeln.

Dieses Tutorial bietet eine umfassende Erkundung der Vision Transformer-Architektur, ihrer Hauptkomponenten und der Gründe, die sie einzigartig machen. Am Ende des Tutorials werden einige Optimierungsstrategien mit Codedemonstrationen besprochen, um das Modell kompakter zu machen und so die Bereitstellung zu erleichtern.

Führen Sie das Tutorial online aus:

https://my5353.com/n30119

Community-Artikel

1. Um eine optimale Leistung zu erzielen, werden nur 5%-Trainingsbeispiele benötigt. Das Forschungsteam der Tsinghua-Universität veröffentlichte das bedingte Denoising-Diffusionsmodell SPDiff, um eine Simulation des menschlichen Flusses über große Entfernungen zu erreichen

Ein Forschungsteam der Tsinghua-Universität hat ein neuartiges bedingtes Rauschunterdrückungs-Diffusionsmodell (SPDiff) vorgeschlagen, das Interaktionsdynamiken effektiv nutzen kann, um das Verhalten einer Menschenmenge durch einen von sozialen Kräften gesteuerten Diffusionsprozess zu simulieren. Das zugehörige Papier wurde in AAAI 2024 veröffentlicht.

Den vollständigen Bericht ansehen:

https://my5353.com/n30069

2. Das Forschungsteam der Beijing Normal University hat das ECA-Net-Modell entwickelt, um Chinas Windenergienutzungspotenzial in den nächsten 70 Jahren vorherzusagen

Kürzlich veröffentlichte ein Forschungsteam der School of Environment der Beijing Normal University eine Abhandlung, in der es untersucht, wie sich das Windenergiepotenzial meines Landes vor dem Hintergrund der globalen Erwärmung verändern wird. Die Studie verwendete 22 globale Klimamodelle des CMIP6 als Ausgabe, um eine robuste Bewertung der Unsicherheiten zwischen den Modellen zu ermöglichen. Die Ergebnisse zeigen, dass die Gesamtdichte der Windenergie in meinem Land in diesem Jahrhundert einen leichten Abwärtstrend aufweisen wird. Das zugehörige Papier wurde in „ACS Publications“ veröffentlicht.

Den vollständigen Bericht ansehen:

https://my5353.com/n30119

3Countdown zum Nvidia 2024 GTC: Wird Huang Renxun neue Initiativen für den chinesischen Markt einführen?

Die GTC AI-Konferenz 2024 ist für den 18. bis 21. März geplant. Huang Renxun wird am 19. März von 4:00 bis 6:00 Uhr Pekinger Zeit seinen jährlichen Vortrag zum Thema „Den transformativen Moment der KI miterleben“ halten. Basierend auf Huangs jüngsten Reden, Interviews und Branchentrends machte HyperAI eine kühne Vorhersage zum Thema seiner Rede.

Den vollständigen Bericht ansehen:

https://my5353.com/n30151

EnzyklopädieAusgewählte Einträge

1. Durchschnittliche Präzision (mAP)

2. Instanzsegmentierung

3. Schnittmenge über Union (IoU)

4. Polynominterpolation

5. Reziproke Rangfusion (RRF)

Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:

https://hyper.ai/wiki

Vorschau auf die Live-Übertragung von Station B

DatumZeitInhalt
18. März
Montag
10:0017:00MIT Deep Learning Kurs 2020MIT Deep Learning Course 2021Original anzeigenÜbersetzung anzeigen Wie finden Sie diese Übersetzung?
Dienstag, 19. März10:00Python-API-Entwicklung – Umfassender Kurs für Anfänger
Mittwoch, 20. März10:0014:00SQL-Tutorial - Anfängerkurs Generative KI Komplettkurs
Donnerstag, 21. März21:00Flutter-Kurse für Anfänger
Freitag, 22. März10:00Flutter-Kurse für Anfänger
Samstag, 23. März10:00Harvard CS50 – Python-Kurs zur künstlichen Intelligenz
Sonntag, 24. März10:00Lernen Sie PyTorch für Deep Learning an einem Tag

Super Neuro TV sendet rund um die Uhr live und liefert kontinuierlich Einblicke in die KI-Branche. Lasst uns gemeinsam lernen:

http://live.bilibili.com/26483094

Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!

Bis nächste Woche!

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung von inländischen beschleunigten Download-Knoten für über 1200 öffentliche Datensätze

* Enthält über 300 klassische und beliebte Online-Tutorials

* Interpretation von über 100 AI4Science-Papierfällen

* Unterstützt die Suche nach über 500 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai/