HyperAIHyperAI

Hochwertige Fusion Aus Stil Und Thema! Das USO-Framework Erreicht Beides Durch Entkopplung Und Belohnungsbasiertes Lernen; 1.000 TCM-Klassiker! Die East China University of Science and Technology Veröffentlicht MedChatZH, Um KI Zu Helfen, TCM Besser Zu verstehen.

特色图像

Im Bereich der KI-Bildgenerierung besteht häufig ein Konflikt zwischen Stil und Thema, der nur schwer gleichzeitig gelöst werden kann.Stilorientierte, priorisierte Generierung künstlerischer Ausdrucksformen mit ähnlichen Stilen.Wenn Sie beispielsweise aufgefordert werden, ein „Porträt von Picasso im kubistischen Stil“ zu erstellen, legt die KI Wert darauf, dass Farbe und Pinselstriche auf den ersten Blick als Picassos Stil erkennbar sind, während die Details des Porträts stark reduziert werden.Bei themenorientierten Ansätzen steht das Streben nach Themenkonsistenz im Vordergrund und ihre Kernaufgabe besteht darin, „genau angegebene Inhalte zu generieren“.Bei der Eingabeaufforderung „Eine Katze mit roter Fliege“ stellt die KI sicher, dass das generierte Ergebnis mit dem von Ihnen beschriebenen Motiv übereinstimmt. Wenn die Szenerie „im Büro“ sein muss, kann der generierte Hintergrund unscharf sein.

Auf dieser GrundlageDas UXO-Team von ByteDance hat USO eingeführt, ein einheitliches Framework zum Entkoppeln und Umstrukturieren von Inhalten und Stil.Durch die Erstellung eines umfangreichen Triplet-Datensatzes, den Einsatz eines entwirrten Lernschemas zur gleichzeitigen Ausrichtung von Stilmerkmalen und Trennung von Inhalt und Stil sowie die Einführung von Style-Reward-Learning (SRL) zur weiteren Verbesserung der Modellleistung ermöglicht dieses Framework die freie Kombination von Themen und Stilen und erzeugt ideale Bilder mit hoher Motivkonsistenz, starker Stiltreue und einem natürlichen, nicht-plastischen Gefühl.

USO verbessert die Modellleistung durch aufgabenübergreifende kollaborative Entkopplung und erreicht sowohl hinsichtlich der Themenkonsistenz als auch der Stilähnlichkeit das SOTA-Niveau von Open-Source-Modellen.Es durchbricht die Trennung zwischen Stil und Thema bei der traditionellen Bilderzeugung und erreicht das Ziel, beides zu haben.

Derzeit wurde auf der offiziellen Website von HyperAI „USO: Unified Style and Subject-Driven Image Generation Model“ veröffentlicht. Kommen Sie vorbei und probieren Sie es aus!

Online-Nutzung:https://go.hyper.ai/VWz1i

Hier ist ein kurzer Überblick über die Updates der offiziellen Website von hyper.ai vom 1. bis 5. September:

* Hochwertige öffentliche Datensätze: 10

* Hochwertige Tutorial-Auswahl: 5

* Empfohlene Artikel dieser Woche: 5

* Interpretation von Community-Artikeln: 6 Artikel

* Beliebte Enzyklopädieeinträge: 5

* Top-Konferenzen mit Deadline im September: 5

Besuchen Sie die offizielle Website:hyper.ai

Ausgewählte öffentliche Datensätze

1. MV3DPT Multi-View-3D-Punktverfolgungsdatensatz

MV3DPT ist ein Benchmark-Datensatz, der speziell für die multi-view-basierte 3D-Punktverfolgung entwickelt wurde. Er soll eine Grundlage für die Forschung zur stabilen Online-Verfolgung beliebiger 3D-Punkte in dynamischen Szenen aus mehreren Kameraperspektiven bieten. Dieser Datensatz deckt sowohl synthetische als auch reale Szenen ab, fusioniert Daten aus mehreren Perspektiven und ermöglicht robuste Vorhersagen unter Okklusion. Er eignet sich zum Trainieren und Evaluieren von 3D-Punktverfolgungsmodellen und findet breite Anwendung in der Computervision und Robotik.

Direkte Nutzung: https://go.hyper.ai/xs6Kt

Dataset-Beispiel

2. StepEval Audio Paralinguistic Paralinguistic Understanding Evaluation Dataset

StepEval Audio Paralinguistic ist ein vom StepFun-KI-Team veröffentlichter Datensatz zur Bewertung des paralinguistischen Audioverständnisses. Ziel ist es, die Fähigkeit von KI-Modellen zu bewerten, paralinguistische Informationen (wie Geschlecht, Alter, Intonation, Emotionen usw.) in der Sprache zu verstehen.

Direkte Nutzung: https://go.hyper.ai/d65ah

3. Landslide4Sense-Benchmark-Datensatz zur Fernerkundung von Erdrutschen

Landslide4Sense ist ein Multi-Source-Benchmark-Datensatz zur Satellitenfernerkundung zur Erdrutscherkennung. Der Datensatz umfasst Erdrutschszenen in mehreren Regionen von 2015 bis 2021. Er ist in 128×128 Bildblöcke mit einer Auflösung von ca. 10 m/Pixel zusammengefasst. Jede Probe enthält 14 Bänder (Sentinel-2 multispektral B1–B12 + ALOS PALSAR-abgeleitete Neigung und DEM).

Direkte Nutzung: https://go.hyper.ai/nDDwN

Dataset-Beispiel

4. AlphaEarth Core Embedding-Datensatz

AlphaEarth ist ein globaler georäumlicher Einbettungsdatensatz, der von den Teams von Google DeepMind und Google Earth Engine veröffentlicht wurde. Ziel ist es, Fernerkundungs- und geografische Daten aus mehreren Quellen in einheitliche, wiederverwendbare raumzeitliche Einbettungen zu komprimieren und so eine effizientere Kartierung und Überwachung bei spärlichen Annotationen zu ermöglichen.

Direkte Verwendung:https://go.hyper.ai/EYcNz

Dataset-Beispiel

5. Benchmark-Datensatz für den Top-Programmierwettbewerb von AetherCode

AetherCode ist ein von ByteDance und dem MAP-Team veröffentlichter Datensatz zur Bewertung von Programmierwettbewerben. Ziel ist es, die algorithmischen Denk- und Programmierfähigkeiten großer Modelle anhand schwieriger Fragen aus Top-Wettbewerben wie IOI, ICPC und USACO sowie hochwertiger, von Experten geprüfter Testfälle realistischer zu bewerten.

Direkte Nutzung: https://go.hyper.ai/oBpK1

6. MedChatZH Chinesischer medizinischer Konversationsbefehlsdatensatz

MedChatZH ist ein chinesischer medizinischer Gesprächsdatensatz, der von der East China University of Science and Technology veröffentlicht wurde. Ziel ist es, das Verständnis und die Generierung chinesischer medizinischer Beratungsdialoge (insbesondere in TCM-Szenarien) durch kontinuierliches Vortraining mit TCM-Klassikern und Feinabstimmung der medizinischen Anweisungsdaten zu verbessern.

Direkte Nutzung: https://go.hyper.ai/gNRfB

7. HBFMID-Datensatz für menschliche Frakturbilder

HBFMID ist ein medizinischer Bilddatensatz zur Unterstützung von Frakturerkennungs- und -klassifizierungsaufgaben. Der Datensatz enthält multimodale Bilder, deckt mehrere Körperteile ab und zeigt verschiedene Formate an. Er ist vollständig optimiert und klar segmentiert und eignet sich daher für das Training und die Evaluierung von Frakturerkennungs- und -klassifizierungsmodellen. Er ist besonders wertvoll für die medizinische Bildanalyse und die Deep-Learning-Forschung.

Direktzugriff: https://go.hyper.ai/IPIOE

Dataset-Beispiel

8HH-RLHF-Datensatz zu menschlichen Präferenzen

HH-RLHF ist ein von Anthropic veröffentlichter Datensatz zu menschlichen Präferenzen, der hauptsächlich aus zwei Teilen besteht: Daten zu nützlichen/unschädlichen menschlichen Präferenzen (PM-Daten) und Daten zu Dialogen des roten Teams (Nicht-PM-Daten).

Direkte Nutzung: https://go.hyper.ai/u98TI

9. UQ-Datensatz zu ungelösten Fragen

Der UQ-Datensatz ist ein Bewertungsmaßstab, der von der Stanford University in Zusammenarbeit mit der University of Washington, der University of North Carolina und anderen Institutionen veröffentlicht wurde. Ziel ist es, die Argumentation, Faktizität und Browsing-Fähigkeiten hochmoderner großer Modelle anhand realer und schwieriger „unbeantworteter Fragen“ der menschlichen Gesellschaft zu bewerten.

Direkte Nutzung: https://go.hyper.ai/BW5qz

10. Llama Nemotron VLM v1 Multimodaler Bild- und Textdatensatz

Llama Nemotron VLM v1 ist ein hochwertiger Bild- und Textdatensatz, der von NVIDIA für das VLM-Nachtraining veröffentlicht wurde. Er wird zur Unterstützung des von NVIDIA veröffentlichten Dokumentverständnismodells Llama-3.1-Nemotron-Nano-VL-8B-V1 verwendet (unterstützt die Beantwortung von Dokumentfragen, die Beantwortung von Graphfragen, AI2D und andere Szenarien).

Direkte Nutzung: https://go.hyper.ai/KVW6Z

Ausgewählte öffentliche Tutorials

1. Hunyuan-GameCraft-1.0: Framework zur interaktiven Spielvideogenerierung

Hunyuan-GameCraft-1.0 ist ein Framework zur Generierung hochdynamischer interaktiver Spielvideos, das gemeinsam vom Tencent Hunyuan-Team und der Huazhong University of Science and Technology entwickelt wurde. Durch die Zusammenführung von Tastatur- und Mauseingaben in einem gemeinsamen Kameradarstellungsraum ermöglicht es präzise Bewegungssteuerung und unterstützt komplexe interaktive Eingaben.

Online ausführen: https://go.hyper.ai/c48zV

Effektanzeige

2. Hunyuan-MT-7B: Übersetzungsmodell-Demo

Hunyuan-MT-7B ist ein leichtgewichtiges Übersetzungsmodell des Tencent Hunyuan-Teams. Es verfügt über nur 7 Milliarden Parameter und unterstützt die Übersetzung zwischen 33 Sprachen und 5 ethnischen chinesischen Sprachen/Dialekten. Es kann Online-Slang, alte Poesie, soziale Konversation usw. präzise verstehen und kontextabhängig freie Übersetzungen durchführen. Es bietet ein Trainingsparadigma, das die gesamte Kette vom Vortraining bis zur integrierten Verstärkung abdeckt.

Online ausführen: https://go.hyper.ai/nv9gJ

Projektbeispiele

3. USO: Ein einheitliches, stil- und themenorientiertes Bildgenerierungsmodell

USO ist ein einheitliches Framework zur Entkopplung und Neuorganisation von Inhalten und Stilen, das vom UXO-Team von ByteDance entwickelt wurde. Es kann jedes Motiv mit jedem Stil in jeder Szene frei kombinieren und erzeugt Bilder mit hoher Motivkonsistenz, starker Stiltreue und einem natürlichen, nicht-plastischen Gefühl. Experimente haben gezeigt, dass es sowohl hinsichtlich der Motivkonsistenz als auch der Stilähnlichkeit das höchste Niveau der Open-Source-Modelle erreicht hat. 

Online ausführen: https://go.hyper.ai/VWz1i

Projektbeispiele

4. MiniCPM-V 4.5: Das stärkste End-to-End-Multimodalmodell

MiniCPM-V 4.5 ist ein äußerst effizientes, groß angelegtes, gerätebasiertes Modell, das vom Natural Language Processing Laboratory der Tsinghua-Universität und Mianbi Intelligence als Open Source entwickelt wurde. Es zeichnet sich in mehreren Bereichen aus, darunter Bilder, Videos und optische Zeichenerkennung (OCR). Ein besonderer Durchbruch ist die Erkennung von Videos mit hoher Bildwiederholrate, wodurch Inhalte präzise erkannt werden können. Das Modell unterstützt hybride Inferenzmodi und schafft so ein ausgewogenes Verhältnis zwischen Leistung und Reaktionsfähigkeit.

Online ausführen: https://go.hyper.ai/o3Ns5

Projektbeispiele

5. BioEmu: Generatives Deep-Learning-System

BioEmu, ein generatives Deep-Learning-System, das vom AI for Science-Team bei Microsoft Research entwickelt wurde, simuliert effizient die dynamischen Strukturen und Gleichgewichtskonformationen von Proteinen. Das System kann Tausende von Proteinstrukturproben pro Stunde auf einer einzigen GPU generieren und übertrifft damit herkömmliche molekulardynamische (MD) Simulationen deutlich.

Online ausführen: https://go.hyper.ai/YV75B

💡Wir haben außerdem eine Austauschgruppe für Tutorials zur stabilen Diffusion eingerichtet. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen~

Die Zeitungsempfehlung dieser Woche

1. R-4B: Förderung der allgemeinen Auto-Thinking-Fähigkeit in MLLMs durch Bi-Mode-Annealing und Reinforce Learning

In diesem Artikel wird ein multimodales Großsprachenmodell, R-4B, vorgestellt, das automatisiertes Denken und Entscheiden ermöglicht. Es kann je nach Problemkomplexität adaptiv entscheiden, ob der Denkprozess aktiviert werden soll. Das Kernkonzept besteht in der Verwendung eines Dual-Mode-Annealing-Mechanismus, der dem Modell sowohl Denk- als auch Nicht-Denkfähigkeiten verleiht. Darüber hinaus wird eine Dual-Mode-Strategieoptimierungsmethode eingesetzt, um die Fähigkeit des Modells zu verbessern, präzise zu bestimmen, ob der Denkprozess aktiviert werden soll.

Link zum Artikel: https://go.hyper.ai/3Nq23

2. EmbodiedOneVision: Interleaved Vision-Text-Action-Vortraining für die allgemeine Robotersteuerung

In diesem Artikel wird EO-Robotics vorgestellt, das aus dem EO-1-Modell und dem EO-Data1.5M-Datensatz besteht. EO-1 ist ein einheitliches, verkörpertes Basismodell, das durch verschachteltes Vision-Text-Action-Vortraining eine überlegene Leistung bei multimodalen Aufgaben des verkörperten Denkens und der Robotersteuerung erzielt.

Link zum Artikel: https://go.hyper.ai/cTtge

3. ASE: Ein Benchmark auf Repository-Ebene zur Bewertung der Sicherheit in KI-generiertem Code

Dieses Dokument schlägt ASE (AI Code Generation Security Evaluation) vor, einen Benchmark auf Repository-Ebene zur Bewertung sicherer Codegenerierung. ASE erstellt Aufgaben aus echten Open-Source-Repositories mit bekannten Schwachstellen (CVEs) und bewahrt dabei den Kontext auf Repository-Ebene, einschließlich Build-Systemen und dateiübergreifenden Abhängigkeiten, vollständig.

Link zum Artikel: https://go.hyper.ai/irGB2

4. Droplet3D: Commonsense-Prioritäten aus Videos erleichtern die 3D-Generierung

In diesem Artikel wird die Anwendung der Videomodalität auf die Generierung von 3D-Assets untersucht. Dabei wird der gesamte Prozess von der Datensatzerstellung bis zum Modelldesign abgedeckt. Es wird der erste groß angelegte Videodatensatz Droplet3D-4M mit hierarchischer Multi-View-Annotation vorgestellt und das Droplet3D-Modell trainiert, ein generatives Modell, das Bildeingabe und dichte Texteingabe unterstützt.

Link zum Artikel: https://go.hyper.ai/BWwsV

5. VerlTool: Auf dem Weg zu ganzheitlichem agentischem Verstärkungslernen mit Werkzeugeinsatz

Dieses Papier schlägt ein einheitliches und modulares Framework namens VerlTool vor, das ARLT als mehrrunde Trajektorien mit multimodalen Beobachtungsbezeichnungen (Text/Bilder/Video) formalisiert und so die Paradigmenbeschränkungen der traditionellen einrunden RLVR durchbricht. Forscher trainierten und evaluierten Modelle anhand von Aufgaben wie mathematischem Denken, der Beantwortung von Wissensfragen, SQL-Generierung, visuellem Denken, Websuche und Softwareentwicklung. Dabei erreichten sie eine mit spezialisierten Systemen vergleichbare Leistung und stellten gleichzeitig eine einheitliche Trainingsinfrastruktur bereit.

Link zum Artikel: https://go.hyper.ai/NeCSC

Weitere Artikel zu den Grenzen der KI:https://go.hyper.ai/iSYSZ

Interpretation von Gemeinschaftsartikeln

1. Diagnose der globalen Wassergesundheit: Ein Team der Hong Kong University of Science and Technology hat ein räumlich-zeitliches Interpolations- und Vorhersagemodell vorgeschlagen, um die räumlich-zeitliche Verteilung von Chlorophyll a in Küstengebieten genau vorherzusagen.

Um die Gesundheit von Küstenökosystemen zu diagnostizieren, schlug ein Team der Hong Kong University of Science and Technology das Modell Spatiotemporal Interpolation and Prediction (STIMP) vor. Durch die Integration speziell entwickelter Module gelang eine präzise Vorhersage der räumlich-zeitlichen Verteilung von Chlorophyll a. Dies eröffnet einen neuen Weg zur Vorhersage von marinem Chlorophyll a unter räumlich-zeitlichen Einschränkungen.

Den vollständigen Bericht ansehen: https://go.hyper.ai/trOfg

2. Vom GPT-3-Direktor zum CTO von Anthropic: Tom Brown spricht über seine unternehmerische Erfahrung, Skalierungsgesetze und die Abhängigkeit von der Chip-Lieferkette.

In einem Interview mit Y Combinator berichtete Anthropics CTO Tom Brown über seinen Weg vom Startup zur KI-Forschung. Er sprach über „Demand Fit“ und die Auswirkungen von „Skalierungsgesetzen“, erläuterte seine Gründe für den Ausstieg aus OpenAI zur Gründung von Anthropic, sprach über die Herausforderungen und Durchbrüche bei der Iteration der Claude-Modellreihe und enthüllte Anthropics Überlegungen zu seiner Multi-Chip-Strategie und Sicherheitsvision.

Den vollständigen Bericht ansehen: https://go.hyper.ai/d3CFR

3. Das vom Institute of Atmospheric Physics entwickelte CoTCN-Modell hat die Genauigkeit der globalen Meeresoberflächentemperaturvorhersagen deutlich verbessert, mit einem 1-Tages-SST-Vorhersagefehler von nur 0,2 °C.

Auf der CCF Global High Performance Computing Conference 2025 präsentierte ein Team um Forscher Lin Pengfei vom Institut für Atmosphärenphysik der Chinesischen Akademie der Wissenschaften einen bedeutenden Forschungserfolg. Das Team entwickelte erfolgreich das Deep-Learning-Modell CoTCN, ein gekoppeltes Transformer- und CNN-Framework. Dieses Modell erzielte einen Durchbruch bei der kurzfristigen globalen Vorhersage der Meeresoberflächentemperatur und lieferte wichtige technische Unterstützung für die Meeresumweltprognose.

Den vollständigen Bericht ansehen: https://go.hyper.ai/Wb1yK

4. Meta AI et al. haben ein neues Framework zur Charakterisierung dynamischer Proteinfusionen namens FusionProt vorgeschlagen, das einen iterativen Informationsaustausch ermöglicht und bei mehreren Aufgaben eine hochmoderne Leistung erzielt.

Ein Forschungsteam des Technion-Israel Institute of Technology und von Meta AI hat ein neuartiges Lernframework für Proteinrepräsentationen namens FusionProt vorgeschlagen. Dieses Framework nutzt innovative lernbare Fusionstoken für den iterativen Informationsaustausch zwischen Proteinmodellstrukturen (PLMs) und Protein-3D-Strukturen und erzielt so bei einer Vielzahl biologischer Aufgaben eine hochmoderne Leistung.

Den vollständigen Bericht ansehen: https://go.hyper.ai/ZZq4Q

5. Von hochbezahlten Abwerbern von OpenAI/Google bis hin zu einem plötzlichen Einstellungsstopp: Meta MSLs Schlüsselpersonal-Überprüfung: Die Hälfte sind Chinesen und 751 TP3T-Doktoranden sind die Hauptkraft

Mitte August 2025 veröffentlichte das Wall Street Journal die Nachricht: Meta hatte gerade eine groß angelegte Suche nach KI-Talenten abgeschlossen und plötzlich die Einstellung neuer Mitarbeiter für seine Abteilung für künstliche Intelligenz ausgesetzt. Daraufhin kündigten Berichten zufolge zahlreiche Mitarbeiter.

Den vollständigen Bericht ansehen: https://go.hyper.ai/KMCvz

Beliebte Enzyklopädieartikel

1. DALL-E

2. Reziproke Sortierfusion RRF

3. Pareto-Front

4. Umfangreiches Multitasking-Sprachverständnis (MMLU)

5. Kontrastives Lernen

Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:https://go.hyper.ai/wiki

Zentrale Verfolgung der wichtigsten wissenschaftlichen KI-Konferenzen:https://go.hyper.ai/event

Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!

Bis nächste Woche!

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung von inländischen beschleunigten Download-Knoten für über 1800 öffentliche Datensätze

* Enthält über 600 klassische und beliebte Online-Tutorials

* Interpretation von über 200 AI4Science-Papierfällen

* Unterstützt die Suche nach über 600 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai

Hochwertige Fusion Aus Stil Und Thema! Das USO-Framework Erreicht Beides Durch Entkopplung Und Belohnungsbasiertes Lernen; 1.000 TCM-Klassiker! Die East China University of Science and Technology Veröffentlicht MedChatZH, Um KI Zu Helfen, TCM Besser Zu verstehen. | Neuigkeiten | HyperAI