HyperAI

Bereitstellung Von LLaMA 3 Chinese Chat Mit Einem Klick, Einschließlich Chinesischem Trainingsdatensatz; Download Des Food2K-Datensatzes Mit 2.000 Kategorien Und 1 Million Bildern

特色图像

Die kürzlich erfolgte Open-Source-Veröffentlichung von Llama 3 hat alle im KI-Kreis begeistert, die Unterstützung für reines Chinesisch ist jedoch nicht sehr gut und es ist nicht möglich, flexibel auf die entsprechende Sprache umzuschalten, um chinesische Fragen zu beantworten.

Diese Woche hat hyper.ai das Bereitstellungs- und Argumentations-Tutorial von Llama 3 Chinese Chat, der chinesischen Version von Llama 3, veröffentlicht.Es löst effektiv die Peinlichkeit, „chinesische Fragen auf Englisch zu beantworten“, und macht das Gespräch natürlicher und flüssiger.Das Tutorial hat das Modell und die Umgebung bereitgestellt. Sie müssen nur die API-Adresse öffnen, um die Schlussfolgerung zu erleben!

Ich kann es kaum erwarten, ich werde es ausprobieren:

https://go.hyper.ai/i3r7D

Derselbe chinesische Trainingsdatensatz:

https://go.hyper.ai/uJlfk

Vom 27. bis 31. Mai gibt es Updates auf der offiziellen Website von hyper.ai:

* Hochwertige öffentliche Datensätze: 10

* Ausgewählte hochwertige Tutorials: 2

* Community-Artikelauswahl: 4 Artikel

* Beliebte Enzyklopädieeinträge: 5

* Top-Konferenzen mit Deadline im Juni: 4

Besuchen Sie die offizielle Website:hyper.ai

Ausgewählte öffentliche Datensätze

1. Datensatz der chinesischen Version von Llama 3

Dieser Datensatz ist eine Sammlung chinesischer Llama 3-Datensätze. Die Daten wurden einheitlich in das Firefly-Format verarbeitet und können mit dem Firefly-Tool verwendet werden, um das chinesische Llama 3-Modell direkt zu trainieren.

Direkte Verwendung:https://go.hyper.ai/uJlfk

2. LCCC Großes, sauberes chinesisches Konversationskorpus

Der Datensatz besteht hauptsächlich aus zwei Teilen: LCCC-Basis (6,8 Millionen Dialoge) und LCCC-groß (12 Millionen Dialoge). Das Forschungsteam entwickelte einen strengen Datenfilterprozess, um die Qualität der Konversationsdaten im Datensatz sicherzustellen. Der gefilterte Datensatz kann die Forschung zur Modellierung kurzer Textkonversationen erleichtern.

Direkte Verwendung:https://go.hyper.ai/bDzEG

3. Food2K Großer Lebensmittelerkennungsdatensatz

Food2K ist ein umfangreicher Datensatz zur Lebensmittelerkennung, der 2.000 Lebensmittelkategorien und über 1 Million Bilder enthält.

Direkte Nutzung: https://go.hyper.ai/TpfUJ

4. COYO-700M Bild-Text-Paar-Datensatz

COYO-700M enthält 747 Millionen Bild-Text-Paare und viele andere Metaattribute und sammelt viele informative Alternativtexte und die zugehörigen Bildpaare in HTML-Dokumenten.

Direkte Nutzung: https://go.hyper.ai/fWI1i

5. GLH-Bridge Großflächiger Fernerkundungsbild-Brücken-Zielerkennungsdatensatz

Der Datensatz enthält 6.000 großformatige Fernerkundungsbilder mit ultrahoher Auflösung und fast 60.000 manuell annotierten Brückeninstanzen vor unterschiedlichen Hintergründen. Das Bildformat beträgt 2048 × 2048 – 16384 × 16384 Pixel und verfügt über zwei Sätze von Zielerkennungsbeschriftungen: Rotationsbox und horizontale Box.

Direkte Nutzung: https://go.hyper.ai/cHPeb

6. MMDialog Multimodaler Open Domain Multi-Turn-Dialog-Datensatz

Bei dem Datensatz handelt es sich um einen umfangreichen multimodalen Open-Domain-Dialogdatensatz, der 1,08 Millionen vollständige Dialogsitzungen, mehr als 4.000 Dialogthemen und 1,53 Millionen nicht wiederholte Bilder mit durchschnittlich 2,59 Bildern pro Dialogsitzung enthält.

Direkte Nutzung: https://go.hyper.ai/iAbI2

7. Pima Indian Diabetes-Datensatz

Der Datensatz stammt ursprünglich vom National Institute of Diabetes and Digestive and Kidney Diseases und sein Zweck besteht darin, anhand bestimmter im Datensatz enthaltener diagnostischer Messungen diagnostisch vorherzusagen, ob ein Patient an Diabetes leidet.

Direkte Nutzung: https://go.hyper.ai/XqJXe

8. LamaH-CE Mitteleuropäischer Hydrologie- und Umweltwissenschafts-Großprobendatensatz

LamaH-CE enthält Abfluss- und meteorologische Zeitreihen für 859 gemessene Wassereinzugsgebiete sowie verschiedene (Einzugsgebiets-)Attribute. Die hydrometeorologischen Zeitreihen liegen mit täglicher und stündlicher zeitlicher Auflösung vor und beinhalten Qualitätsmarker. Alle meteorologischen und die meisten Abfluss-Zeitreihen umfassen mehr als 35 Jahre.

Direkte Verwendung:https://go.hyper.ai/UPZvA

9. CAMELS-GB UK-Einzugsgebietseigenschaften und hydrometeorologischer Zeitreihendatensatz

Dieser Datensatz bietet hydrometeorologische Zeitreihen und Landschaftsattribute für 671 Einzugsgebiete im Vereinigten Königreich. Es stellt Flussströme, Einzugsgebietseigenschaften und Einzugsgebietsgrenzen aus dem britischen National River Flow Archive sowie einen neuen Satz meteorologischer Zeitreihen und Einzugsgebietseigenschaften zusammen.

Direkte Verwendung:https://go.hyper.ai/KA29l

10. HQ-Edit-Anweisungsbasierter Bildbearbeitungsdatensatz

HQ-Edit enthält etwa 200.000 Bearbeitungsbeispiele, jeweils mit einem Eingabebild, einem Ausgabebild und detaillierten Bearbeitungsanweisungen.

Direkte Verwendung:https://go.hyper.ai/xjahh

Weitere öffentliche Datensätze finden Sie unter:

https://hyper.ai/datasets

Ausgewählte öffentliche Tutorials

1. Ein-Klick-Bereitstellung der Llama 3-Chinese-Chat-8b-Demo

Das in diesem Tutorial verwendete Modell ist die erste chinesische Version von Llama 3, einem Sprachmodell mit fein abgestimmten Anweisungen für chinesische und englische Benutzer und mehreren Funktionen wie Rollenspielen und Werkzeugnutzung. Klonen und starten Sie einfach den Container und kopieren Sie die generierte API-Adresse direkt, um die Inferenz auf dem Modell zu erleben.

Online ausführen:https://go.hyper.ai/i3r7D

2. Online-Tutorial – Ähnlich wie Soras technischer Weg! Das weltweit erste Open Source Vincent Video DiT-Modell Latte mit einem Klick

Latte ist ein innovatives Modell zur Videogenerierung, das im November 2023 als Open Source veröffentlicht wurde. Als weltweit erstes Open-Source-Vincent-Video-DiT hat Latte vielversprechende Ergebnisse erzielt. Dieses Tutorial ist eine Demo für das Latte-Projekt.

Online ausführen: https://go.hyper.ai/LFfmt

Vorschau auf die Live-Übertragung von Station B

Apple veranstaltet die WWDC 2024 vom 10. bis 14. Juni. Damit jeder umfassende Informationen über Apple erhält, sendet der Super Neurological B Station Live Room weiterhin „Apple Special“-Videos mit Themen wie WWDC-Konferenzen der vergangenen Jahre, Interviews mit Führungskräften, entsprechenden Dokumentationen und anderen umfangreichen Inhalten.Zu diesem Zeitpunkt wird Chao Shenjing es auch live auf Video Account und Bilibili übertragen, also vereinbaren Sie jetzt einen Termin und verpassen Sie es nicht~

Die folgende Tabelle ist eine Vorschau auf die vom Herausgeber ausgewählten Live-Übertragungsinhalte für die nächste Woche ↓↓↓

DatumZeitInhalt
1. Juni
Montag
18:00Steve Jobs
Dienstag, 2. Juni18:00Was einen Apfel zu einem Apfel macht
Mittwoch, 3. Juni18:00Interview mit Steve Jobs vs. Bill Gates
Donnerstag, 4. Juni18:00Erste Veröffentlichung des iPhone
Freitag, 5. Juni18:00Geschichte von Steve Jobs
Samstag, 6. Juni18:00Wie Apple die Beinahe-Pleite überlebte
Sonntag, 7. Juni18:00Tim Cooks Geschichte

Super Neuro TV sendet rund um die Uhr live. Klicken Sie hier, um die „elektronischen Gurken“ im KI-Bereich zu erhalten:

http://live.bilibili.com/26483094

Community-Artikel

1. [Datensatzzusammenfassung] Das Meteorologische Amt hat zum ersten Mal den Trainingsdatenkatalog veröffentlicht! CAMELS US-amerikanische astronomische und meteorologische Datensätze und andere Daten sind jetzt auf der offiziellen Website verfügbar

Letzte Woche veröffentlichte die China Meteorological Administration erstmals den „Special Data Catalogue for Artificial Intelligence Meteorological Large Model Training“, der riesige Mengen meteorologischer Daten zusammenfasst. Der Katalog steht ab sofort auf der offiziellen Website des Meteorologischen Büros zum Download bereit. Um allen dabei zu helfen, relevante Datenressourcen zu verstehen und zu nutzen, hat HyperAI diese Woche außerdem zehn hochwertige Datensätze zu meteorologischen Katastrophen zusammengestellt, um den Fortschritt der entsprechenden Forschung besser zu fördern und ein neues Kapitel in der meteorologischen Forschung aufzuschlagen.

Detaillierte Informationen erhalten Sie:https://go.hyper.ai/kK87m

2. Analysieren und trainieren Sie Daten von über 2.000 hydrologischen Stationen auf der ganzen Welt. Das Team der Chinesischen Akademie der Wissenschaften hat ED-DLSTM veröffentlicht, um Hochwasservorhersagen in Gebieten ohne Überwachungsdaten zu erreichen.

Das Team von Ouyang Chaojun vom Chengdu Institute of Mountain Hazards and Environment der Chinesischen Akademie der Wissenschaften schlug ein KI-basiertes Abfluss- und Hochwasservorhersagemodell namens ED-DLSTM vor. Durch die Kodierung der statischen Eigenschaften des Einzugsgebiets und der meteorologischen Einflussfaktoren sowie durch die Verwendung von Daten von über 2.000 hydrologischen Stationen auf der ganzen Welt zum Trainieren des Modells versuchten sie, das Problem der Abflussvorhersage in Einzugsgebieten mit und ohne weltweite Überwachungsdaten zu lösen. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe der Forschungsergebnisse.

Den vollständigen Bericht ansehen:https://go.hyper.ai/eG6H5

3. Brain-Computer-Interface: Ein Plug-in für die moderne Medizin und ein Glücksspiel für gelähmte Patienten

Die Tsinghua-Universität, die Zhejiang-Universität, die Stanford-Universität, die Brown-Universität, die Johns-Hopkins-Universität und andere in- und ausländische Universitäten haben relevante Forschungen zu Gehirn-Computer-Schnittstellen durchgeführt. Dieser Artikel beginnt mit dem Konzept und stellt die drei Hauptformen der Implementierung von Gehirn-Computer-Schnittstellen, spezifische Forschungsfälle von berühmten Universitäten im In- und Ausland, die Ethik und Sicherheit von Gehirn-Computer-Schnittstellen usw. vor.

Den vollständigen Bericht ansehen:https://go.hyper.ai/W3pPf

4. Veröffentlicht in MNRAS, einem führenden Astronomiejournal! Das Shanghai Astronomical Observatory der Chinesischen Akademie der Wissenschaften nutzte KI, um 107 neutrale Kohlenstoffabsorptionslinien mit einer Erkennungsgenauigkeit von 99,8% zu entdecken

Das Team unter der Leitung von Ge Jian, einem Forscher am Shanghai Astronomical Observatory der Chinesischen Akademie der Wissenschaften, suchte mithilfe von Deep-Learning-Methoden in den vom Sloan Sky Survey III veröffentlichten Daten nach neutralen Kohlenstoffabsorptionslinien. Dadurch lüftete es das Geheimnis der Zusammensetzung kalter Gaswolken in frühen Galaxien und entdeckte 107 Beispiele neutraler Kohlenstoffabsorptionslinien im frühen Universum. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe der Forschungsergebnisse.

Den vollständigen Bericht ansehen:https://go.hyper.ai/qirkz

Beliebte Enzyklopädieartikel

1. Epoche

2. Neuronales Strahlungsfeld (NeRF)

3. Skalierungsgesetz

4. YOLOv10 Echtzeit-End-to-End-Objekterkennung

5. Kolmogorov-Arnold-Netzwerke

Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:

https://hyper.ai/wiki

Zentrale Verfolgung der wichtigsten wissenschaftlichen KI-Konferenzen:

https://hyper.ai/events

Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!

Bis nächste Woche!

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung von inländischen beschleunigten Download-Knoten für über 1200 öffentliche Datensätze

* Enthält über 300 klassische und beliebte Online-Tutorials

* Interpretation von über 100 AI4Science-Papierfällen

* Unterstützt die Suche nach über 500 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai/Schließlich empfehle ich ein „Creator Incentive Program“. Interessierte Freunde können den QR-Code scannen, um teilzunehmen!