Öffentliches Online-Tutorial Zum Besten ICML-Papier SD3! DreamBench++ Ist Ein Neuer Maßstab Für Die Automatische Bildauswertung Und Erreicht Eine Tiefe Übereinstimmung Mit Menschlichen Vorlieben

Vor Kurzem wurden die besten Beiträge der ICML 2024 bekannt gegeben! Hierzu zählt das „Internet-Promi-Modell“ zur Generierung von Jahresbildern – Stable Diffusion 3 (kurz SD3). SD3 ist das neueste von Stability AI entwickelte Text-zu-Bild-Generierungsmodell, das vor einiger Zeit als Open Source für das gesamte Netzwerk verfügbar gemacht wurde!HyperAI Super Neuro hat jetzt ein Tutorial zum Ausführen von SD3 im ComfyUI-Workflow veröffentlicht.Jeder ist herzlich eingeladen, beim Lesen des Papiers die technologische Innovation von SD3 zu erleben!
Link zum SD3-Tutorial:https://go.hyper.ai/ojO3g
Vom 22. bis 26. Juli gibt es Updates auf der offiziellen Website von hyper.ai:
* Hochwertige öffentliche Datensätze: 10
* Auswahl an hochwertigen Tutorials: 3
* Community-Artikelauswahl: 4 Artikel
* Beliebte Enzyklopädieeinträge: 5
* Top-Konferenzen mit Deadline im August: 4
Besuchen Sie die offizielle Website:hyper.ai
Ausgewählte öffentliche Datensätze
Der Datensatz enthält 30 Motive verschiedener Kategorien, darunter 9 lebende Motive (wie Hunde und Katzen) und 21 Objekte mit 4 bis 6 Bildern für jedes Motiv. Dadurch kann ein Modell mit einer kleinen Anzahl von Bildern trainiert werden, sodass es Bilder der jeweiligen Person in vielen verschiedenen Kontexten erstellen kann und dabei die wichtigsten visuellen Merkmale beibehält.
Direkte Verwendung:https://go.hyper.ai/Jiqg6
2. ChlD Großer Datensatz chinesischer Redewendungen
Der Datensatz enthält 581.000 Absätze und 729.000 Leerzeichen und deckt mehrere Domänen ab. In ChID werden Redewendungen in Absätzen durch Leerzeichen ersetzt. Für jede Lücke steht eine Liste mit möglichen Redewendungen zur Auswahl, darunter auch die goldene Redewendung.
Direkte Verwendung:https://go.hyper.ai/dt4AR
3. CCPM-Datensatz zur Übereinstimmung mit klassischer chinesischer Poesie
Bei diesem Datensatz handelt es sich um den „Chinese Classical Poetry Matching Dataset“, der 2021 von der Tsinghua-Universität veröffentlicht wurde und einen Trainingssatz (21.778 Sätze), einen Validierungssatz (2.720 Sätze) und einen Testsatz (2.720 Sätze) umfasst.
Direkte Verwendung:https://go.hyper.ai/ymhF6
Der MMDU-Benchmark besteht aus 110 hochwertigen Multi-Image-Multi-Turn-Dialogen mit mehr als 1.600 Fragen, jede mit einer ausführlichen Langantwort. Die Probleme in MMUD betreffen 2 bis 20 Bilder mit einer durchschnittlichen Bild- und Text-Taglänge von 8,2.000 Tags und einer maximalen Bild- und Textlänge von 18.000 Tags, was für bestehende multimodale Großmodelle erhebliche Herausforderungen darstellt.
Direkte Verwendung:https://go.hyper.ai/vNyjl
5. ModeINet10 Princeton 3D-Objektdatensatz
Der ModelNet10-Datensatz ist Teil des ModelNet40-Datensatzes und enthält 4.899 vorab ausgerichtete Formen von 10 Kategorien von CAD-Möbelmodellen wie Badewannen, Betten, Stühlen und Tischen. Davon werden 3.991 (80%) Formen zum Trainieren und 908 (20%) Formen zum Testen verwendet.
Direkte Verwendung:https://go.hyper.ai/ZPFKs
6. Datensatz zur Sturzerkennung
Der Datensatz enthält einen Bildordner und einen Etikettenordner. Der Bilderordner enthält zwei Unterordner: Train (374 Bilder) für das Training und Val (111 Bilder) für die Validierung.
Direkte Verwendung:https://go.hyper.ai/WAKTy
7. baike_qa2019 Enzyklopädie Q&A JSON-Version Datensatz
Der Datensatz enthält 1,5 Millionen vorgefilterte, hochwertige Fragen und Antworten, wobei jede Frage zu einer Kategorie gehört. Insgesamt gibt es 492 Kategorien, von denen 434 Kategorien eine Häufigkeit von 10 oder mehr aufweisen.
Direkte Verwendung:https://go.hyper.ai/3KWJ8
8. DreamBench++ Benchmark-Datensatz zur automatischen Bildauswertung
DreamBench++ ist ein neuer Benchmark, der 2024 gemeinsam von Forschern der Tsinghua-Universität, der Xi'an Jiaotong-Universität, der University of Illinois at Urbana-Champaign, der Chinesischen Akademie der Wissenschaften und Megvii eingeführt wurde, um Probleme bei der Bewertung der Technologie zur personalisierten Bilderzeugung zu lösen. Durch die Einführung des multimodalen GPT-4o wird eine tiefe Übereinstimmung und automatisierte Auswertung mit menschlichen Präferenzen erreicht und ein umfassenderer und vielfältigerer Datensatz eingeführt.
Direkte Verwendung:https://go.hyper.ai/glVDV
9. COVID-19-Radiographiedatenbank Datenbank mit Röntgenbildern des Brustkorbs
Der Datensatz enthält 3.616 COVID-19-positive Fälle, 10.192 normale Fälle, 6.012 Fälle von Lungentrübung (nicht durch COVID-19 verursachte Lungeninfektion) sowie 1.345 Bilder von viraler Lungenentzündung und entsprechende Bilder von Lungenmasken, um Forscher bei ihrer Forschung während der COVID-19-Pandemie zu unterstützen.
Direkte Verwendung:https://go.hyper.ai/89Wxz
10. Oceanlnstruct Ocean Large Model Command Dataset
Der Datensatz enthält 20.000 Anweisungen und soll Trainingsdaten für groß angelegte Sprachmodelle im Meeresbereich liefern. Diese Anweisungen decken ein breites Spektrum an meereswissenschaftlichem Wissen ab und stellen sicher, dass das Modell über professionelle Fähigkeiten zur Beantwortung meereswissenschaftlicher Fragen, zur Inhaltserstellung und zur Nutzung verkörperter Unterwasser-Intelligenz verfügt.
Direkte Verwendung:https://go.hyper.ai/WuYlv
Weitere öffentliche Datensätze finden Sie unter:
Ausgewählte öffentliche Tutorials
Das Open-Source-Modell Stable Diffusion 3 Medium (SD3) von Stability AI, einem führenden Unternehmen im Bereich der Bildverarbeitung, bietet erhebliche Verbesserungen bei der Bildqualität, dem Verständnis komplexer Eingabeaufforderungen und der Ressourceneffizienz. Es kann Bilder mit realistischen Details, hellen Farben und natürlicher Beleuchtung erzeugen und sich an eine Vielzahl von Stilen anpassen! Das Tutorial kombiniert die Text- und Bildfunktionen von SD3 mit dem Workflow von ComfyUI, sodass Sie Ihre kreative Reise sofort beginnen können.
Online ausführen:https://go.hyper.ai/ojO3g
2. Kolors Kuaishou große Modelldemo von Text und Bild
Kolors ist ein groß angelegtes Modell zur Text-zu-Bild-Generierung auf Basis latenter Diffusion, das vom Kuaishou Kolors-Team entwickelt wurde. Kolors wurde anhand von Milliarden von Text-Bild-Paaren trainiert und weist gegenüber Open-Source- und Closed-Source-Modellen erhebliche Vorteile hinsichtlich der visuellen Qualität, der komplexen semantischen Genauigkeit und der Textwiedergabe sowohl chinesischer als auch englischer Schriftzeichen auf. Für dieses Tutorial ist die Eingabe von Befehlen nicht erforderlich und Sie können mit der Bildgenerierung sofort per Ein-Klick-Klonen beginnen.
Online ausführen:https://go.hyper.ai/ur8q7
3. Ein-Klick-Bereitstellung Mistral-Nemo-Instruct-2407
Mistral-Nemo-Instruct-2407 ist eine optimierte Version der Mistral-Nemo-Base-2407-Anweisung, die gemeinsam von Mistral AI und NVIDIA als Open Source bereitgestellt wurde, und seine Leistung ist deutlich besser als die bestehender kleinerer oder ähnlich großer Modelle. Mistral NeMo verfügt über 12 Milliarden (12B) Parameter und ein Kontextfenster von 128k, und seine Argumentationsfähigkeit, sein Weltwissen und seine Kodierungsgenauigkeit sind in ähnlicher Größenordnung führend. Dieses Tutorial ist eine Ein-Klick-Bereitstellung von Mistral-Nemo-Instruct-2407. Die relevante Umgebung und die Abhängigkeiten wurden installiert. Sie müssen es nur klonen, um die Gründe dafür zu erfahren.
Online ausführen:https://go.hyper.ai/zGkci
Community-Artikel
In der ersten Folge der Live-Übertragungsreihe „Meet AI4S“ hatte HyperAI das Glück, Ding Jiale, einen Doktoranden für Fernerkundung und geografische Informationssysteme an der Zhejiang-Universität, einladen zu dürfen. Unter dem Titel „Neuronale Netze liefern neue Erklärungen für die räumliche Heterogenität von Immobilienpreisen“ erläuterte er ausführlich und leicht verständlich seine Forschungsergebnisse. Dieser Artikel ist eine Zusammenfassung der Ausführungen von Dr. Ding.
Den vollständigen Bericht ansehen:https://go.hyper.ai/g2fXy
Das Forschungsteam von Bai Xiang und Liu Yuliang von der Huazhong University of Science and Technology verwendete in Zusammenarbeit mit der University of Adelaide, der Anyang Normal University und der South China University of Technology ein bildbasiertes generatives Modell, um ein für die Entzifferung von Orakelknocheninschriften optimiertes bedingtes Diffusionsmodell (OBSD) zu trainieren und bietet damit einen neuartigen Ansatz für die Aufgabe der Erkennung antiker Schriftzeichen, die mit natürlicher Sprachverarbeitung nur schwer zu lösen ist. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe der relevanten Dokumente.
Den vollständigen Bericht ansehen:https://go.hyper.ai/fLcZU
Autonomes Fahren läutet eine neue „End-to-End“-Ära ein, in der qualitativ hochwertige Datensätze eine wichtige Rolle spielen. In diesem Zusammenhang hat HyperAI 10 beliebte Open-Source-Datensätze zum autonomen Fahren zusammengestellt, die jeder sammeln und verwenden kann.
Den vollständigen Bericht ansehen:https://go.hyper.ai/5nj1s
Das Team von Zhang Ningyu und Chen Huajun von der Fakultät für Informatik und Technologie der Zhejiang-Universität hat mit OceanGPT das erste große Sprachmodell im Ozeanbereich vorgeschlagen, das Fragen auf Grundlage der Anweisungen von Ozeanographen beantworten kann und über vorläufige Fähigkeiten zur verkörperten Intelligenz im Meeresingenieurwesen verfügt. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe der relevanten Dokumente.
Den vollständigen Bericht ansehen:https://go.hyper.ai/b6tqu
Beliebte Enzyklopädieartikel
1. Skalierungsgesetz
2. Maskierte Sprachmodellierung (MLM)
3. Datenerweiterung
4. Langzeit-Kurzzeitgedächtnis Kurzzeitgedächtnis
5. Quantenneuronales Netzwerk
Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:

Zentrale Verfolgung der wichtigsten wissenschaftlichen KI-Konferenzen:https://go.hyper.ai/event
Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!
Bis nächste Woche!
Über HyperAI
HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:
* Bereitstellung inländischer beschleunigter Download-Knoten für über 1300 öffentliche Datensätze
* Enthält über 400 klassische und beliebte Online-Tutorials
* Interpretation von über 100 AI4Science-Papierfällen
* Unterstützt die Suche nach über 500 verwandten Begriffen
* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China
Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen: