HyperAI

Überwinden Sie Den Engpass Bei Der Ausgabe Langer Artikel Mit Zehntausenden Von Wörtern! Die Tsinghua-Universität Macht Den LongWriter-6k-Datensatz Als Open Source Verfügbar. 7 CCF Class A-Konferenzen Stehen Kurz Vor Dem Abschluss

特色图像

Obwohl das aktuelle Long-Context-Large-Modell große Texteingaben verarbeiten kann, ist es aufgrund des Mangels an langen Ausgabebeispielen nicht in der Lage, lange Inhalte zu generieren. Um dieses Problem zu lösen,Ein Forschungsteam der Tsinghua-Universität hat den LongWriter-6k-Datensatz erstellt, der die maximale Ausgabefenstergröße großer Modelle auf über 10.000 Wörter erweitern kann!

Mithilfe des von LongWriter-6k trainierten Modells können nicht nur spannende Romane mit Höhen und Tiefen in der Handlung und superlanger Romanlänge generiert werden, sodass die Leser in eine großartige literarische Welt eintauchen können; In der akademischen Forschung kann es außerdem ausführliche Forschungsberichte und Artikelrezensionen erstellen und so wissenschaftlichen Forschern umfangreiches Referenzmaterial bieten.

Auf der offiziellen Website von hyper.ai wurde jetzt der „LongWriter-6k Long Context Output Dataset“ veröffentlicht, der auch die Online-Nutzung unterstützt.Scrollen Sie nach unten, um den Link zu erhalten~

Vom 19. bis 23. August gibt es Updates auf der offiziellen Website von hyper.ai:

* Hochwertige öffentliche Datensätze: 10

* Ausgewählte hochwertige Tutorials: 2

* Community-Artikelauswahl: 2 Artikel

* Beliebte Enzyklopädieeinträge: 5

* Top-Konferenzen mit Deadline im September: 7

Besuchen Sie die offizielle Website:hyper.ai

Ausgewählte öffentliche Datensätze

1. LongWriter-6k langer Kontextausgabedatensatz

Der Datensatz enthält 6.000 SFT-Daten mit einer Ausgabelänge von 2.000 bis 32.000 Wörtern (einschließlich Englisch und Chinesisch), die das Training von LLM unterstützen und die maximale Ausgabefenstergröße auf über 10.000 Wörter erweitern können.

Direkte Verwendung:https://go.hyper.ai/77byR

2. EVOBC Oracle-Bone Script Evolution-Datensatz

Der Datensatz enthält antike Texte aus sechs historischen Perioden, die Forscher systematisch aus maßgeblichen Dokumenten und Websites zusammengetragen haben, und besteht aus 229.170 Bildern, die 13.714 verschiedene Zeichenkategorien darstellen.

Direkte Verwendung:https://go.hyper.ai/oe5fU

3. HUST-OBS Oracle Knochenerkennungsdatensatz

Der Datensatz enthält über 140.000 Bilder aus drei verschiedenen Quellen, darunter Bücher, Websites und vorhandene Datenbanken, und ist damit einer der bislang größten OBS-Identifizierungs- und Entschlüsselungsdatensätze.

Direkte Verwendung:https://go.hyper.ai/bXxx1

4. Alpaca-Cleaned-Befehls-Feinabstimmungsdatensatz

Der Alpaca-Cleaned-Datensatz ist eine bereinigte Version des ursprünglichen Alpaca-Datensatzes, der 2024 von der Stanford University veröffentlicht wurde. Dieser Datensatz behebt einige Probleme des ursprünglichen Alpaca, wie z. B. halluzinogene Antworten, zusammengeführte Anweisungen, leere Ausgaben und inkonsistente Eingabefelder, und verbessert so die Qualität und Konsistenz der Daten.

Direkte Verwendung:https://go.hyper.ai/yNlAa

5. Al Medical Chatbot – Datensatz für medizinische Gespräche

Dies ist ein experimenteller Datensatz für die Ausführung medizinischer Chatbots, der 256.916 Gespräche zwischen Patienten und Ärzten enthält.

Direkte Verwendung:https://go.hyper.ai/kaGzv

6. Openstory++ Bildinstanz-Datensatz im großen Maßstab

Openstory++ wurde entwickelt, um das Problem zu lösen, dass vorhandene Modelle zur Bildgenerierung Schwierigkeiten haben, die Instanzkonsistenz in langen Textkontexten aufrechtzuerhalten. Es kombiniert Anmerkungen auf Instanzebene zu Bildern und Texten und stellt so eine umfangreiche Ressource bereit, die es ermöglicht, Bilder mit hoher Konsistenz im Kontext langer Texte zu generieren.

Direkte Verwendung:https://go.hyper.ai/no3E7

7. MedTrinity-25M Großer multimodaler medizinischer Datensatz

MedTrinity-25M enthält mehr als 25 Millionen medizinische Bilder aus 10 Bildgebungsverfahren und ist mit mehr als 65 Krankheiten versehen. Dieser Datensatz enthält nicht nur umfangreiche globale und lokale Anmerkungen, sondern integriert auch mehrstufige Informationsanmerkungen in mehreren Modalitäten (wie CT, MRT, Röntgen usw.). Dieser Datensatz wird multimodale Aufgaben wie die medizinische Bildverarbeitung, Berichterstellung, Klassifizierung und Segmentierung hervorragend unterstützen und gleichzeitig das Vortraining medizinbasierter künstlicher Intelligenzmodelle fördern.

Direkte Verwendung:https://go.hyper.ai/JCSJP

8. 1920 Raider Waite Tarot Tarot-Bilddatensatz

Dieser Datensatz enthält Bilder und zugehörige Textbeschreibungen von 78 Karten aus dem ursprünglichen Rider-Waite-Tarotdeck und bietet Forschern und Künstlern eine reichhaltige Ressource zur Erforschung der Kunst und Symbolik von Tarotkarten. Er kann zum Trainieren von Modellen zur Generierung von Bildern im Tarot-Stil verwendet werden.

Direkte Verwendung:https://go.hyper.ai/8bd2R

9. Waterloo Exploration Datenbank zur großflächigen Bildqualitätsbewertung
Die Datenbank enthält 4.744 natürliche Originalbilder und 94.880 aus diesen Originalbildern erstellte verzerrte Bilder, mit denen die Generalisierungsfähigkeit von Modellen zur Bildqualitätsbewertung getestet werden kann.
Direkte Verwendung:https://go.hyper.ai/m5mhN

10. SWE-bench verifizierter Benchmark-Datensatz zur Evaluierung der Codegenerierung

Der Benchmark ist eine verbesserte Version (Teilmenge) des bestehenden SWE-Benchmarks, der dazu dient, die Fähigkeit von KI-Modellen, reale Softwareprobleme zu lösen, zuverlässiger zu bewerten.

Direkte Verwendung:https://go.hyper.ai/oxOBY

Weitere öffentliche Datensätze finden Sie unter:

https://hyper.ai/datasets

Ausgewählte öffentliche Tutorials

1. ComfyUl AuraFlow Wenshengtu Workflow-Demo

Dieses Modell erzielt bei GenEval hochmoderne Ergebnisse mit höherer Verarbeitungseffizienz und besserer Detaildarstellung bei Textgraphaufgaben. In diesem Tutorial wird ComfyUI zum Bereitstellen des AuraFlow-Graphmodells verwendet. Das Modell und die zugehörigen Umgebungskonfigurationen wurden erstellt und können mit einem Klick zur Inferenz geklont werden.

Direkte Verwendung:https://go.hyper.ai/KpI4B

2. Whisper Web Online-Spracherkennungstool

Whisper verwendet ML zur Spracherkennung und kann mit WebGPU beschleunigt werden. Es unterstützt das Online-/lokale Hochladen von Audiodateien und die sofortige Aufnahme in mehr als 100 Sprachen. Der erkannte Text kann in den Dateiformaten TXT und JSON exportiert und auch direkt ins Englische übersetzt werden. Dieses Tutorial basiert auf dem Open-Source-Projekt Whisper Web auf GitHub und läuft mit Whisper direkt im Browser.

Direkte Verwendung:https://go.hyper.ai/N3iwm

Community-Artikel

1. Kampf gegen Chemotherapieresistenz und Tumorrezidive! Forschungsteam der Shandong University nutzt KI, um eine wirksame Abwehr gegen Brustkrebsstammzellen zu entwickeln

Kürzlich ist Lv Haiquan, Sun Rong und Zhang Kai von der Shandong-Universität und Mei Qi von der Shanxi Medical University zusammen mit Forschungsteams von Helix Matrix ein Durchbruch gelungen. Mithilfe von Technologie des maschinellen Lernens und auf Grundlage der mRNA-Analyse haben sie erfolgreich eine neue Methode entwickelt, die BCSC-Signatur, um die Eigenschaften von Krebsstammzellen in Proben von Patientinnen mit primärem Brustkrebs zu beurteilen. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe des Forschungspapiers.

Den vollständigen Bericht ansehen:https://go.hyper.ai/SPAjK

2. Dr. Bingxin Zhou von der Shanghai Jiao Tong University: Graph-Neural-Networks verändern das Verständnis und die Generierung von Proteinen und begegnen so der Herausforderung knapper biologischer Daten

Auf der Sommerschule „AI for Bioengineering“ der Shanghai Jiao Tong University erläuterte Dr. Zhou Bingxin von der Shanghai Jiao Tong University unter dem Thema „Graph Neural Networks and Protein Structure Representation“ allen die Definition, Vorteile und modernsten Anwendungen von Graph Neural Networks in Bereichen wie der Proteinvorhersage und -generierung. Dieser Artikel ist eine Abschrift der von Dr. Zhou Bingxin geteilten Highlights.

Den vollständigen Bericht ansehen:https://go.hyper.ai/GjXi5

3. Ausgewählt für die ACL2024-Hauptkonferenz | InstructProtein: Angleichung der Proteinsprache an die menschliche Sprache durch Wissensanweisungen

Ein Forschungsteam der Zhejiang-Universität hat InstructProtein vorgeschlagen, das Wissensanweisungen verwendet, um die Proteinsprache an die menschliche Sprache anzupassen und so die Fähigkeit demonstriert, biologische Sequenzen in große Sprachmodelle zu integrieren. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe des Forschungspapiers.

Den vollständigen Bericht ansehen:https://go.hyper.ai/GjXi5

Beliebte Enzyklopädieartikel

1. Gepaarter t-Test

2. Reziproke Sortierfusion RRF

3. Pareto-Front

4. Variationaler Autoencoder VAE

5. Datenerweiterung

Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:

https://go.hyper.ai/wiki

Zentrale Verfolgung der wichtigsten wissenschaftlichen KI-Konferenzen:https://go.hyper.ai/event

Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!

Bis nächste Woche!

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung inländischer beschleunigter Download-Knoten für über 1300 öffentliche Datensätze

* Enthält über 400 klassische und beliebte Online-Tutorials

* Interpretation von über 100 AI4Science-Papierfällen

* Unterstützt die Suche nach über 500 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai