Command Palette
Search for a command to run...
Extrem Leichtgewichtig Und Dennoch Mit Unverminderter Bildqualität! ERNIE-Image-Turbo: Schluss Mit Langen Wartezeiten, Blitzschnelle Geschwindigkeit! Einführung Zweidimensionaler Metriken Für Wahrnehmung Und Kognition: Alibabas Einheitlicher Multimodaler Parsing- Und Evaluierungsdatensatz OmniParsingBench Ist Jetzt online.

ERNIE-Image-Turbo ist ein hocheffizientes Text-zu-Bild-Modell, das von Baidu als Open Source veröffentlicht wurde. Basierend auf einer Single-Stream-Diffusion-Transformer-Architektur (DiT) und umfassend optimiert durch DMD- und RL-Techniken, generiert es in nur acht Inferenzschritten schnell hochauflösende und ästhetisch ansprechende Bilder. Dank seines ressourcenschonenden Designs werden die Hardwareanforderungen für Anwendung und Forschung deutlich reduziert.
Dieses Modell zeichnet sich durch extrem hohe Generierungsgeschwindigkeit, hohe Steuerbarkeit und Vielseitigkeit aus. Es kann Anweisungen mit mehreren Objekten und komplexen Beziehungen präzise ausführen und verbessert seine Fähigkeit, lange, dichte Texte und strukturierte Layouts darzustellen, erheblich. Damit ist es die ideale Wahl für Posterdesign, mehrteilige Comics und Infografiken. Darüber hinaus unterstützt es verschiedene ästhetische Stile, darunter realistische Fotografie, Designtypografie und sanfte filmische Effekte. Es ist somit ein ideales Werkzeug, das visuelle Qualität mit professioneller kreativer Effizienz vereint.
Das „ERNIE-Image-Turbo Raw Image Model“ ist jetzt auf der HyperAI-Website verfügbar. Probieren Sie es aus!
Online-Nutzung:https://go.hyper.ai/hmKUg
Besuchen Sie unsere offizielle Website für weitere Informationen:
Ein kurzer Überblick über die Aktualisierungen der offiziellen Website von hyper.ai vom 18. bis 24. April:
* Hochwertige öffentliche Datensätze: 9
* Eine Auswahl hochwertiger Tutorials: 5
* Analyse von Community-Artikeln: 2 Artikel
* Beliebte Enzyklopädieeinträge: 5
* Top-Konferenzen mit Deadline im April: 1
Besuchen Sie die offizielle Website:hyper.ai
Ausgewählte öffentliche Datensätze
1. OmniParsingBench Multimodal Parsing Capability Evaluation Dataset
OmniParsingBench, 2026 von Alibaba veröffentlicht, ist ein Benchmark-Datensatz zur Evaluierung der einheitlichen Parsing-Fähigkeiten multimodaler großer Modelle (MLLM). Dieser Datensatz umfasst ca. 5.294 Beispiele aus sechs Modaldomänen (natürliche Bilder, Grafiken, Dokumente, Audio, natürliches Video und textreiches Video) und führt drei Bewertungsmetriken ein: Wahrnehmung (Perc.), Kognition (Cog.) und Gesamtbewertung (Ovr.). Jeder Datensatz enthält eine Bild- oder Audio-/Video-Eingabe und eine entsprechende strukturierte Parsing-Aufgabe.
Online-Nutzung:https://go.hyper.ai/AqyDg
2.BRIGHT-Datensatz zur Bewertung von Katastrophengebäuden
BRIGHT ist der erste frei zugängliche, global verteilte, multimodale Benchmark-Datensatz für Katastrophenszenarien mit verschiedenen Ereignistypen. Er integriert optische Bilddaten und SAR-Daten (Synthetic Aperture Radar). Der Datensatz umfasst 14 Regionen und 7 Katastrophenarten (5 Naturkatastrophen + 2 von Menschen verursachte Katastrophen) und enthält ca. 4.200 Bildpaare mit über 380.000 Gebäuden in einer räumlichen Auflösung von ca. 0,3–1 Meter. Die Daten bestehen aus Bildmaterial vor und nach der Katastrophe sowie Zielannotationen.
Online-Nutzung:https://go.hyper.ai/RifVg
3. Blume: Ein Datensatz mit Bildern von Blumen in Bangladesch
Der Flower Bangladesh Flower Image Dataset ist ein Datensatz für computergestützte Bildklassifizierungsaufgaben. Er enthält reale Aufnahmen verschiedener Blumenarten aus Bangladesch. Alle Bilder sind original, nicht synthetisch und wurden unter natürlichen Lichtverhältnissen aufgenommen, wodurch eine große Farbvielfalt entsteht. Der Datensatz deckt ein breites Spektrum lokaler Blumenarten und ihrer Merkmale ab und ist nach Kategorien geordnet.
Online-Nutzung:https://go.hyper.ai/wirun
4. MIA-Datensatz für mehrstufige Inferenz und Entscheidungstrajektorien
Der MIA-Datensatz (Multi-Step Reasoning and Decision Trajectory), der im April 2026 gemeinsam von der Ostchinesischen Pädagogischen Universität, dem Shanghai Innovation Research Institute und dem Harbin Institute of Technology veröffentlicht wurde, dient dem Training und der Evaluierung intelligenter Agenten mit Langzeitgedächtnis und Aufgabenausführungsfähigkeiten. Dieser Datensatz umfasst ca. 21.000 Denkprozesse, die den gesamten Ablauf von Problemlösung, Planung, Suche und Ausführung abdecken, und eignet sich für die Forschung im Bereich des Agenten-Reasoning und des Reinforcement Learning.
Online-Nutzung:https://go.hyper.ai/XITit
5. PanScale Remote Sensing Pancolor Sharpening Dataset
PanScale ist ein Benchmark-Datensatz für großflächige Inferenz und Leistungsbewertung, der 2026 von der Chinesischen Akademie der Wissenschaften in Zusammenarbeit mit der Universität für Wissenschaft und Technologie Chinas und der Hong Kong University of Science and Technology veröffentlicht wurde. Dieser Datensatz enthält 7.559 Paare multispektraler (MS) und panchromatischer (PAN) Bilder im 8-Bit-TIFF-Format. Er umfasst mehrere Teilmengen, darunter Jilin, Landsat und Skysat, und erweitert sich auf skalenübergreifende Versionen wie FJILIN, FLandsat und FSkysat. Dadurch ermöglicht er die Systemevaluierung von Szenen von derselben Skala bis hin zu mehreren Skalen (bis zu 4,0x).
Online-Nutzung:https://go.hyper.ai/mz2gh
6. Emotion-Probes-Datensatz zur Emotionserkennung
Emotion-probes ist ein synthetischer Textdatensatz, der für die Emotionsanalyse und die Erforschung der Modellinterpretierbarkeit entwickelt wurde. Er dient der Extraktion von Emotionsvektoren und der Analyse von Emotionsmaskierungsfähigkeiten aus Modellen und findet breite Anwendung in der Emotionsklassifizierung, der Modellausrichtung, der Sicherheitsforschung und der Analyse der internen Mechanismen großer Modelle. Der Datensatz umfasst ca. 447.000 Beispiele. Jedes Beispiel enthält Felder wie die tatsächliche Emotion, die ausgedrückte Emotion, den Textinhalt und Rolleninformationen.
Online-Nutzung:https://go.hyper.ai/jw5FA
7. OpenMementos Kontextspeicherkomprimierter Datensatz
OpenMementos ist ein von Microsoft im Jahr 2026 veröffentlichter Datensatz zur Kontext- und Speicherkomprimierung, der für die Modellierung von Inferenzprozessen über lange Ketten und die Kontextverwaltung großer Modelle entwickelt wurde. Ziel dieses Datensatzes ist es, Modelle für die Kontextkomprimierung und kontinuierliche Inferenz zu trainieren und so komplexe, mehrstufige Inferenzaufgaben innerhalb eines begrenzten Kontextfensters zu unterstützen. Er ist vielseitig einsetzbar, beispielsweise für die Modellierung von Inferenzprozessen über lange Ketten, das Training speicheroptimierter Modelle und die effiziente Generierung von Modellen.
Online-Nutzung:https://go.hyper.ai/RwCkt
8. ParseBench-Datensatz zur Evaluierung der Dokumentenanalysefähigkeit
Der Datensatz ParseBench zur Evaluierung der Dokumentenanalyse wurde 2024/25 vom LlamaIndex-Team veröffentlicht. Er umfasst ca. 2.000 manuell validierte und annotierte Seiten sowie 169.011 Testregeln in fünf Dimensionen. Die Seiten stammen aus öffentlich zugänglichen Unternehmensdokumenten aus den Bereichen Versicherung, Finanzen, Verwaltung und anderen Sektoren und beinhalten verschiedene Seitentypen wie PDFs, Scans und Seiten mit Tabellen und Layouts. Standardisierte Analyseergebnisse, abgestimmt auf die manuellen Annotationen, dienen der Bewertung der Leistungsfähigkeit des Modells hinsichtlich Strukturverständnis und Informationsextraktion.
Online-Nutzung:https://go.hyper.ai/FfFR6
9. SOHL-Multidish-YOLO-Datensatz zur Erkennung von indischen Mehrgerichten.
SOHL Multi-Dish YOLO ist ein Datensatz zur Lebensmittelerkennung für Aufgaben der Mehrfachobjekterkennung in der Computer Vision. Er basiert auf der YOLOv8-Annotationsspezifikation und konzentriert sich auf die Erkennung mehrerer Gerichte in komplexen Szenen. Der Datensatz umfasst 377 annotierte Bilder mit 377 zugehörigen Annotationen und deckt 16 Lebensmittelkategorien ab. Jedes Bild zeigt 2–6 Lebensmittelobjekte mit Merkmalen wie Überlappung, unterschiedlichen Größen und komplexen Anordnungen.
Online-Nutzung:https://go.hyper.ai/u5Lng
Ausgewählte öffentliche Tutorials
1. ERNIE-Image-Turbo Rohbildmodell
ERNIE-Image-Turbo ist ein Open-Source-Text-zu-Bild-Generierungsmodell, das im April 2026 vom Baidu ERNIE-Image-Team veröffentlicht wurde. ERNIE-Image-Turbo bietet Funktionen wie komplexes Instruction-Tracing, Text-Rendering, Poster-Layout-Generierung, strukturierte Bildgenerierung und eine breite Stilabdeckung und eignet sich daher für kreative Content-Workflows wie Posterdesign, Illustrationsgenerierung und Interface-Konzeptskizzen.
Online ausführen:https://go.hyper.ai/hmKUg

2. Bereitstellung von Qwen 3.6-27B mit einem Klick
Qwen3.6-27B ist ein komplexes multimodales Modell mit 27 Milliarden Parametern, das vom Tongyi Qianwen-Team als Open Source veröffentlicht wurde. Es unterstützt sowohl multimodales Denken als auch nicht-denkende Modi und erzielt Spitzenleistung in der Agentenprogrammierung. Damit übertrifft es seinen Vorgänger, das Open-Source-Flaggschiff Qwen3.5-397B-A17B, deutlich. Dank seiner dichten Architektur kann es ohne MoE-Routing eingesetzt werden und ist somit die ideale Wahl für Entwickler, die erstklassige Programmierfunktionen auf praktische und breit einsetzbare Weise benötigen.
Online ausführen:https://go.hyper.ai/GU9S2

3. SAM3.1: Video-Multi-Objekt-Tracking und -Segmentierung
SAM3.1 (Segment Anything Model 3.1) ist ein System zur Objektverfolgung und -segmentierung in Videos mit offenem Vokabular. Durch die Einführung von Objekt-Multiplexing-Technologie ermöglicht dieses Modell eine effiziente Videoverfolgung mehrerer Objekte.
Online ausführen:https://go.hyper.ai/3e5qL

4. Qwen3.6-35B-A3B: Ein leistungsstarkes Werkzeug zur Programmierung intelligenter Agenten.
Im April 2026 veröffentlichte das Qwen-Team das multimodale hybride Expertenmodell (MoE) Qwen3.6-35B-A3B. Dieses Modell verfügt über insgesamt 35 Milliarden Parameter, von denen jedoch nur 3 Milliarden pro Inferenz aktiviert werden. Dadurch werden die Inferenzkosten deutlich reduziert, während gleichzeitig eine hohe Leistungsfähigkeit erhalten bleibt.
Online ausführen:https://go.hyper.ai/Gc7bp

5. Neuronale Netze von Grund auf erstellen: Ein NumPy-Tutorial
Dieses Tutorial führt Nutzer durch den Aufbau eines einfachen neuronalen Netzwerks von Grund auf, ausschließlich mit der NumPy-Bibliothek. Es behandelt umfassend Kernkonzepte wie Neuronen, Gewichte, Vorwärtsausbreitung zu verborgenen Schichten, Aktivierungs- und Verlustfunktionen. Darüber hinaus hilft es Nutzern, die Prinzipien des Deep-Learning-Modellbaus zu verstehen und geht dabei über den bloßen Aufruf von Framework-APIs hinaus.
Online ausführen:https://go.hyper.ai/OmyS0
Interpretation von Gemeinschaftsartikeln
1. ICLR 2026 | 125-fache Reduzierung der trainierbaren Parameter pro Aufgabe! Die neue Methode Task Tokens hilft der verkörperten Intelligenz, ihre Fähigkeit zur Bewältigung komplexer Aufgaben zu verbessern.
Ein Forschungsteam des Technion – Israel Institute of Technology hat eine Methode namens Task Tokens entwickelt, die BFM effektiv an spezifische Aufgaben anpasst und gleichzeitig dessen Flexibilität beibehält. Im Vergleich zu Standardmethoden reduziert die neue Methode die trainierbaren Parameter pro Aufgabe um bis zu 125 Mal und verbessert die Konvergenzgeschwindigkeit um bis zu 6 Mal. Die Forscher validierten die Effektivität von Task Tokens anhand verschiedener Aufgaben, darunter auch Szenarien außerhalb der Verteilung, und demonstrierten die Kompatibilität mit anderen Cueing-Methoden.
Den vollständigen Bericht ansehen:https://go.hyper.ai/vs0C6
2. Die Universität Toronto und andere schlugen dnaHNet vor, das die Inferenzgeschwindigkeit um das Dreifache verbessert und den Rechenaufwand für das Genomlernen um fast das Vierfache reduziert.
Das dnaHNet-Modell, das gemeinsam von der Universität Toronto, dem Vector Institute for Artificial Intelligence in Kanada und dem Arc Institute in den Vereinigten Staaten entwickelt wurde, bietet einen neuen Ansatz, um ein besseres Gleichgewicht zwischen rechnerischer Machbarkeit und biologischer Genauigkeit zu erreichen.
Den vollständigen Bericht ansehen:https://go.hyper.ai/dRnYT
Beliebte Enzyklopädieartikel
1. Fähigkeiten
2. Wahrheitsgehalt
3. Triplet-Verlustfunktion
4. Kolmogorov-Arnold-Netzwerke
5. Reziproke Rangfusion
Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:
Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!
Bis nächste Woche!
Über HyperAI
HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:
* Bietet inländische beschleunigte Download-Knoten für mehr als 2100 öffentliche Datensätze
* Enthält über 700 klassische und beliebte Online-Tutorials
* Analyse von über 300 AI4Science-Fallstudien
* Unterstützt die Suche nach über 700 verwandten Begriffen
* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China
Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:








