HyperAI

5,2k Sterne! Der Superinnovator, Der Das OCR-Dilemma Durchbricht, Ist Hier; Das Mehrsprachige Medizinische Großmodell Ist Open Source, Korpus Und Benchmark-Datensatz Stehen Zum Download Bereit

特色图像

Obwohl die OCR-Technologie (Optical Character Recognition, optische Zeichenerkennung) im heutigen Zeitalter der rasanten digitalen Entwicklung immer beliebter wird, gibt es immer noch viele Engpässe. In komplexen und sich ändernden Situationen lässt die Erkennungsgenauigkeit herkömmlicher OCR-Modelle stark nach und der Verarbeitungsablauf sowie die Arbeitsschritte sind recht umständlich, was die Arbeitseffizienz erheblich verringert.

Das weltweit erste universelle End-to-End-OCR-Modell GOT-OCR-2.0 wurde vor Kurzem offiziell als Open Source veröffentlicht! Es löst die Einschränkungen der herkömmlichen OCR in Bezug auf schlechte Bildqualität, komplexen Hintergrund und handschriftliche Texterkennung.Das Modell bietet jetzt ein Demo-Tutorial auf der offiziellen Website von hyper.ai. Sie können die komplizierten Installationsschritte überspringen und direkt durch Klonen starten.

Online ausführen:https://go.hyper.ai/JVVKQ

Vom 1. bis 12. Oktober gibt es Updates auf der offiziellen Website von hyper.ai:

* Auswahl an hochwertigen Tutorials: 3

* Hochwertige öffentliche Datensätze: 10

* Community-Artikelauswahl: 5 Artikel

* Beliebte Enzyklopädieeinträge: 5

* Top-Konferenzen mit Deadline im Oktober: 5

Besuchen Sie die offizielle Website:hyper.ai

Ausgewählte öffentliche Tutorials

1. GOT-OCR-2.0 Das weltweit erste universelle End-to-End-OCR-Modell

GOT-OCR-2.0 ist ein einheitliches End-to-End-Modell, das auf der allgemeinen OCR-Theorie basiert und sich auf die Verbesserung der Genauigkeit und Effizienz der optischen Zeichenerkennung (OCR) konzentriert. Es verfügt über eine integrierte Architektur, die die Vielfalt und Komplexität von Texten effizient verarbeiten kann. GOT-OCR 2.0 unterstützt nicht nur die Szenentexterkennung, sondern kann auch mehrseitige Dokumente verarbeiten und so mehr Flexibilität in den OCR-Bereich bringen. Führen Sie den Container gemäß dem Tutorial aus und kopieren Sie die API-Adresse direkt, um die Modellinferenz zu erleben.

Direkte Verwendung:https://go.hyper.ai/JVVKQ

Effektbeispiele

2. IC-Light Bildbeleuchtungstool, natürlicher Hintergrundfusionsersatz

IC-Light steht für Imposing Consistent Light, ein Projekt, das eine Neubeleuchtung von Bildern durch Modelle des maschinellen Lernens zum Ziel hat. Es bietet zwei Haupttypen von Modellen: ein textbedingtes Beleuchtungsmodell und ein hintergrundbedingtes Modell, die die Beleuchtung des Vordergrundbildes entsprechend dem Texthinweis bzw. dem Hintergrundinhalt anpassen.

Dieses Projekt kann über die Gradio-Schnittstelle eine interaktive Front-End-Schnittstelle generieren. Die relevanten Modelle und Abhängigkeiten wurden bereitgestellt und können mit einem Klick gestartet werden.

Direkte Verwendung:https://go.hyper.ai/1Y0PQ

Effektbeispiele

3. Fish Speech v1.4 Demo des Tools zum Klonen von Stimmen – Text in Sprache

Fish Speech ist ein 2024 von Fish Audio entwickeltes Text-to-Speech-Modell (TTS), das hochwertige, natürlich klingende Sprache erzeugen kann. Nach dem Upgrade auf Version v1.4 hat dieses Modell etwa 700.000 Stunden Datentraining durchlaufen und beherrscht nun acht Sprachen, darunter Chinesisch, Japanisch und Englisch. Seine Fähigkeiten zur Sprachverarbeitung kommen dem menschlichen Niveau nahe und sein Stimmausdruck ist reichhaltig und vielfältig.

In diesem Tutorial wurde das Modell auf die neueste Version aktualisiert und die Umgebung bereitgestellt. Sie können Sprachklonierungs- oder Text-to-Speech-Aufgaben direkt gemäß den Anweisungen im Tutorial durchführen.

Direkte Verwendung:https://go.hyper.ai/t7O8m

Ausgewählte öffentliche Datensätze

1. MMedC Großes mehrsprachiges medizinisches Korpus

Der Datensatz enthält ungefähr 25,5 Milliarden Token mit medizinischen Vorhersagedaten und deckt sechs Hauptsprachen ab: Englisch, Chinesisch, Japanisch, Französisch, Russisch und Spanisch. Die Unterstützung für weitere Sprachen wird weiterhin aktualisiert und erweitert.

Direkte Verwendung:https://go.hyper.ai/jXv0r

Übersicht über die MMedC-Datensatzstatistik

2. MMedBench Benchmark-Datensatz für mehrsprachige medizinische Fähigkeitstests

Der Datensatz dient der Bewertung der Entwicklung mehrsprachiger Modelle im medizinischen Bereich und deckt 6 Sprachen und 21 medizinische Teilgebiete ab. Alle Fragen in MMedBench stammen direkt aus Fragendatenbanken medizinischer Untersuchungen in verschiedenen Ländern. Dadurch werden die Genauigkeit und Zuverlässigkeit der Bewertung sichergestellt und ein diagnostischer Verständnisfehler vermieden, der durch Unterschiede in den Leitlinien der medizinischen Praxis in verschiedenen Ländern verursacht wird.

Direkte Verwendung:https://go.hyper.ai/8X9xD

Übersicht über die MMedBench-Datensatzstatistik

3. Lacuna Malaria-Erkennungsdatensatz

Der Datensatz enthält insgesamt 3.925 Malaria-Objektträgerbilder, darunter 2.747 Bilder im Trainingssatz und 1.178 Bilder im Testsatz. Zusätzlich zum Bild werden der Objektträger, auf dem das Bild aufgenommen wurde, der Objekttisch-Mikrometerwert des Mikroskops und die Objektiveinstellungen aufgezeichnet, wobei pro Objektträger bis zu 40 Bilder aufgenommen werden.

Direkte Verwendung:https://go.hyper.ai/9oBFv

Beispiele für Datensatzbilder

4. HelpSteer2-Datensatz zur Ausrichtung menschlicher Präferenzen

HelpSteer2 enthält etwa 10.000 Antwortpaare, was um eine Größenordnung kleiner ist als vorhandene Präferenzdatensätze, aber es ist sehr effizient beim Trainieren von Belohnungsmodellen. Der Datensatz zielt darauf ab, Belohnungsmodelle zu trainieren, die große Sprachmodelle (LLMs) anleiten können, qualitativ hochwertige Antworten zu generieren, die mit den menschlichen Vorlieben übereinstimmen.

Direkte Verwendung:https://go.hyper.ai/YePhv

5. MMMLU Mehrsprachiger Multitasking-Sprachverständnis-Datensatz

Der Datensatz zielt darauf ab, die Leistung von Modellen der künstlichen Intelligenz in verschiedenen sprachlichen, kognitiven und kulturellen Kontexten zu bewerten und zu verbessern. MMMLU basiert auf dem Benchmark „Massive Multi-Task Language Understanding“ (MMLU) und ist eine von KI-Modellen erreichte Common-Sense-Metrik, die Aufgaben aus 57 verschiedenen Themenbereichen umfasst, die von elementarem Wissen bis hin zu fortgeschrittenen Fachdisziplinen wie Recht, Physik, Geschichte und Informatik reichen.

Direkte Verwendung:https://go.hyper.ai/TY7aR

6. FRAMES - Testsatz zur Generierung einer Benchmark-Abrufverbesserung

Der Datensatz enthält 824 anspruchsvolle Multi-Hop-Fragen, die das Abrufen von Informationen aus 2 bis 15 Wikipedia-Artikeln erfordern. Die Fragen decken Themen wie Geschichte, Sport, Wissenschaft, Tiere, Gesundheit und mehr ab und jede Frage ist mit der Art der Argumentation gekennzeichnet, z. B. numerisch, tabellarisch, mehrere Einschränkungen, zeitlich und Nachbearbeitung. Der Datensatz liefert außerdem zu jeder Frage die goldene Antwort und den entsprechenden Wikipedia-Artikel.

Direkte Verwendung:https://go.hyper.ai/zp5WQ

7. MedScribble-Datensatz zur Multi-Image-Segmentierung für biomedizinische Aufgaben

Der Datensatz enthält handschriftliche Kritzeleien von 3 Kommentatoren, die vom Forschungsteam gesammelt wurden, indem sie 14 Segmentierungsaufgaben aus 14 verschiedenen frei zugänglichen biomedizinischen Bildsegmentierungsdatensätzen erledigten. MedScrible enthält insgesamt 64 2D-Bildsegmentierungspaare, jedes mit 3 Sätzen von Scribble-Anmerkungen.

Direkte Verwendung:https://go.hyper.ai/X901T

8. CDFSOD-Benchmark: Domänenübergreifender Benchmark-Datensatz zur Objekterkennung in kleinen Stichproben

Ziel dieses Projekts ist es, das Problem der Objekterkennung bei kleinen Stichproben zu lösen, wenn zwischen der Quelldomäne und der Zieldomäne ein erheblicher Domänenunterschied besteht. Es enthält einen Datensatz zur Algorithmusbewertung sowie Datensatzindikatoren wie Stil, Varianz zwischen Klassen (ICV) und undefinierbare Grenzen (IB) zum Messen von Domänenunterschieden.

Direkte Verwendung:https://go.hyper.ai/YQsnW

9. CLVR Jaco Play-Datensatz Fernbedienungsroboter-Clip-Datensatz

Dieser Datensatz ist eine wertvolle Ressource für Wissenschaftler und Entwickler, die in Bereichen wie Roboterfernsteuerung, Verarbeitung natürlicher Sprache und Mensch-Computer-Interaktion arbeiten. Es bietet 1.085 Clips des teleoperierten Roboters Jaco 2 mit entsprechenden Sprachanmerkungen.

Direkte Verwendung:https://go.hyper.ai/Xde69

10. Berkeley Cable Routing Mehrstufiger Roboterkabel-Task-Datensatz

Der Berkeley Cable Routing-Datensatz ist ein Datensatz zum Studium mehrstufiger Robotermanipulationsaufgaben, insbesondere in Bezug auf Kabelführungsaufgaben. Die Aufgabe erfordert, dass der Roboter ein Kabel durch eine Reihe von Klemmen fädelt. Dies stellt die Herausforderung eines komplexen mehrstufigen Robotermanipulationsszenarios dar, das die Handhabung verformbarer Objekte, das Schließen der visuellen Wahrnehmungsschleife und die Verarbeitung erweiterter Verhaltensweisen umfasst, die aus mehreren Schritten bestehen.

Direkte Verwendung:https://go.hyper.ai/aiML0

Weitere öffentliche Datensätze finden Sie unter:

https://hyper.ai/datasets

Community-Artikel

1. Veröffentlicht im Subjournal von Nature! Der Erstautor des Papiers erläutert ausführlich die Methode des Lernens kleiner Stichproben des Proteinsprachenmodells, um das Problem des Mangels an nassen experimentellen Daten zu lösen

In der dritten Folge der Live-Übertragungsreihe „Meet AI4S“ stellte Zhou Ziyi, Postdoktorand in der Forschungsgruppe von Professor Hong Liang am Institut für Naturwissenschaften der Shanghai Jiao Tong University, die neuesten Forschungsergebnisse des Teams zum Thema „Lernmethoden für kleine Stichproben für Proteinsprachenmodelle“ vor und erkundete neue Ideen für die KI-gestützte gerichtete Evolution. Dieser Artikel ist eine Abschrift der wichtigsten Punkte seiner Rede und enthält zahlreiche nützliche Informationen.

Sehen Sie sich die vollständige Zusammenfassung an:https://go.hyper.ai/MzXfg

2. Jeff Dean gefällt die neue Forschung von Google: Wal-Bioakustikmodell kann 8 Walarten identifizieren

Ein Google-Forschungsteam hat ein neues bioakustisches Modell von Walen entwickelt. Das Modell kann acht verschiedene Arten der derzeit 94 bekannten Walarten identifizieren. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe des Dokuments.

Den vollständigen Bericht ansehen:https://go.hyper.ai/1l2HO

3. Die Agenten-Psychologische Klinik ist online! Basierend auf 1,3.000 Depressionsberatungsdialogen entwickelte das Team der Shanghai Jiaotong University einen großen Modelldialogagenten, der Depressionen diagnostizieren kann

Das Team von Professor Wu Mengyue vom X-LANCE-Labor der Shanghai Jiao Tong University hat in Zusammenarbeit mit dem Tianqiao Institute for Brain Science und ThetaAI ein automatisiertes Dialogagenten-Simulationssystem mit großem Modell – die Intelligent Psychological Clinic AMC – zur vorläufigen Diagnose von Depressionen entwickelt. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe des Forschungspapiers.

Den vollständigen Bericht ansehen:https://go.hyper.ai/AdjI5

4. Realisieren Sie die Vorhersage des dynamischen Dockings von Proteinen! Die Shanghai Jiaotong University/Xingyao Technology/Sun Yat-sen University und andere haben gemeinsam das geometrische Deep-Generation-Modell DynamicBind eingeführt

Die Forschungsgruppe von Zheng Shuangjia an der Shanghai Jiao Tong University hat in Zusammenarbeit mit Star Pharma Technology, der Sun Yat-sen University School of Pharmacy und der Rice University in den USA ein geometrisches, tiefes generatives Modell namens DynamicBind vorgeschlagen, das für das dynamische Andocken von Proteinen entwickelt wurde. Damit wird ein neues Forschungsparadigma auf der Grundlage von Deep Learning bereitgestellt, das die dynamischen Veränderungen von Proteinen für die Arzneimittelentwicklung in der Post-AlphaFold-Ära berücksichtigt. Dieser Artikel ist eine detaillierte Interpretation und Weitergabe des Forschungspapiers.

Den vollständigen Bericht ansehen:https://go.hyper.ai/nErwd

5. AlphaFold gewinnt den Nobelpreis, Dankesrede des CEO von DeepMind: Die besten Wissenschaftler und KI werden unglaubliche Arbeit leisten

David Baker, Demis Hassabis und John M. Jumper erhielten den Nobelpreis für Chemie 2024. Demis Hassabis, CEO von DeepMind, sagte: „Die besten Wissenschaftler, die mit diesen KI-Tools arbeiten, werden unglaubliche Arbeit leisten können.“ David Baker sagte sogar unverblümt: „AlphaFold ist sehr inspirierend.“ Dieser Artikel ist ein ausführlicher Bericht über die Gewinner des diesjährigen Nobelpreises für Chemie.

Den vollständigen Bericht ansehen:https://go.hyper.ai/UPpuB

Beliebte Enzyklopädieartikel

1. Transformatormodell

2. Variationaler Autoencoder VAE

3. Künstliche neuronale Netze

4. Pareto-Front

5. Groß angelegtes Multitasking-Sprachverständnis (MMLU)

Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:

https://go.hyper.ai/wiki

Zentrale Verfolgung der wichtigsten wissenschaftlichen KI-Konferenzen:https://go.hyper.ai/event

Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!

Bis nächste Woche!

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung inländischer beschleunigter Download-Knoten für über 1300 öffentliche Datensätze

* Enthält über 400 klassische und beliebte Online-Tutorials

* Interpretation von über 100 AI4Science-Papierfällen

* Unterstützt die Suche nach über 500 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai