HyperAIHyperAI

Command Palette

Search for a command to run...

Baidu Setzt Neue Maßstäbe! Das OCR-Modell PaddleOCR-VL Überwindet Die Grenzen Von Pipeline- Und End-to-End-Methoden; Der Datensatz Zur Gesichtsausdruckserkennung Ermöglicht Es Der KI, Gesichtsausdrücke Zu verstehen.

vor einem Tag
Information
h.li
Featured Image

Die Komplexität moderner Dokumentinhalte stellt Parsing-Technologien vor größere Herausforderungen: Dokumente enthalten oft lange Texte, komplexe Diagramme, Fachformeln, mehrere Sprachen und können unregelmäßige Layouts aufweisen. Daher ist effizientes und präzises Dokumenten-Parsing zu einer unverzichtbaren Schlüsseltechnologie geworden.

Die aktuelle Forschung im Bereich der Dokumentenanalyse verfolgt im Wesentlichen zwei technische Ansätze:Ein Ansatz besteht darin, eine Pipeline-Methode auf Basis eines modularen Expertenmodells zu verwenden.Während diese Methoden bei bestimmten Aufgaben stabil funktionieren, werden ihre Nachteile immer deutlicher: Die Systemarchitektur ist komplex, Fehler häufen sich in den Verarbeitungsphasen, und ihre Leistungsfähigkeit stößt bei der Verarbeitung hochkomplexer Dokumente an ihre Grenzen.DasZweitens ein durchgängiger Ansatz, der auf einem multimodalen großen Modell basiert.Obwohl es darauf ausgelegt ist, Arbeitsabläufe zu vereinfachen und eine globale Optimierung zu erreichen, stößt es in der Praxis häufig auf Probleme, wie beispielsweise eine fehlerhafte Textreihenfolge und die Erzeugung von „illusorischen“ Inhalten bei der Verarbeitung langer Dokumente oder komplexer Layouts. Darüber hinaus schränkt der enorme Rechenaufwand für die Ausgabe langer Sequenzen die Einsatzmöglichkeiten in realen Szenarien ein.

Basierend auf diesen realen HerausforderungenBaidu hat PaddleOCR-VL auf den Markt gebracht, ein leistungsstarkes und ressourcenschonendes Dokumentenanalysemodell, das auf einem visuellen Sprachmodell basiert.Kernstück dieses Modells ist das kompakte und leistungsstarke visuelle Sprachmodell PaddleOCR-VL-0.9B. Es integriert einen dynamischen visuellen Encoder im NaViT-Stil mit dem Sprachmodell ERNIE-4.5-0.3B und ermöglicht so eine präzise Elementerkennung. Dieses innovative Modell unterstützt effizient 109 Sprachen und zeichnet sich durch die Erkennung komplexer Elemente wie Text, Tabellen, Formeln und Diagramme bei gleichzeitig extrem niedrigem Ressourcenverbrauch aus.

Durch eine umfassende BewertungPaddleOCR-VL hat sowohl bei der Dokumentenanalyse auf Seitenebene als auch bei der Elementerkennung eine herausragende Leistung (SOTA) erzielt.Es weist eine hohe Wettbewerbsfähigkeit im Vergleich zu führenden visuellen Sprachmodellen auf und eignet sich daher besser für den Einsatz in realen Szenarien.

Auf der HyperAI-Website findet ihr jetzt „PaddleOCR-VL: Multimodal Document Parsing“ – probiert es doch mal aus!

Online-Nutzung:https://go.hyper.ai/3OjbB

Ein kurzer Überblick über die Aktualisierungen der offiziellen Website von hyper.ai vom 17. bis 21. November:

* Hochwertige öffentliche Datensätze: 6

* Auswahl an hochwertigen Tutorials: 3

* Empfohlene Artikel dieser Woche: 5

* Interpretation von Community-Artikeln: 5 Artikel

* Beliebte Enzyklopädieeinträge: 5

Top-Konferenzen mit Anmeldefristen im Dezember: 2

Besuchen Sie die offizielle Website:hyper.ai

Ausgewählte öffentliche Datensätze

1. HumanSense Benchmark-Datensatz

Der HumanSense Benchmark ist ein von der Xi'an Jiaotong Universität in Zusammenarbeit mit der Ant Group veröffentlichter Benchmark-Datensatz zur Bewertung der menschlichen Wahrnehmung. Er zielt darauf ab, die Interaktionsfähigkeiten von Modellen in realen Situationen unter Berücksichtigung multimodaler Informationen wie Bild, Ton und Text umfassend zu messen.

Direkte Verwendung:https://go.hyper.ai/9drzT

2. EditReward-Bench Bildbearbeitungs-Evaluierungsdatensatz

EditReward-Bench ist ein systematischer Evaluierungs-Benchmark für Belohnungsmodelle in der Bildbearbeitung. Er wurde gemeinsam von der Universität für Wissenschaft und Technologie Chinas, dem Institut für Automatisierung der Chinesischen Akademie der Wissenschaften und der Pekinger Akademie für Künstliche Intelligenz veröffentlicht. Ziel ist die umfassende Bewertung der Unterscheidungsfähigkeit von Belohnungsmodellen anhand dreier Kerndimensionen: Anweisungskonformität, Konsistenz und Gesamtqualität. Der Datensatz umfasst 3.072 von Experten annotierte Präferenzvergleichsdatenpunkte und deckt sowohl gängige als auch komplexe Anwendungsszenarien aus der Praxis ab.

Direkte Verwendung:https://go.hyper.ai/OEVRn

3. UNO-Bench Benchmark-Datensatz für die vollständige Modalbewertung

UNO-Bench, entwickelt vom LongCat-Team von Meituan, ist der erste einheitliche multimodale Evaluierungs-Benchmark zur effizienten Bewertung unimodaler und multimodaler Verständnisfähigkeiten. Der Datensatz umfasst 1250 multimodale Beispiele mit 98%-übergreifender Lösbarkeit und 2480 unimodale Beispiele, die 44 Aufgabentypen und 5 Modalitätskombinationen abdecken. Zudem beinhaltet der Datensatz ein allgemeines Bewertungsmodell, das die automatisierte Auswertung von 6 Fragetypen ermöglicht und somit einen einheitlichen Bewertungsstandard für multimodale Aufgaben bietet.

Direkte Verwendung:https://go.hyper.ai/gIcIK

4. VERA Speech Reasoning Evaluation Dataset

VERA ist ein umfangreicher, vielseitiger Sprachdatensatz, der von der Duke University in Zusammenarbeit mit Adobe veröffentlicht wurde. Er dient der Evaluierung der Leistungsfähigkeit großer Modelle unter natürlichen Sprachbedingungen. Alle Sprachbeispiele werden in natürlicher Sprachform präsentiert, und die Audiosynthese erfolgt mit Boson Higgs Audio 2, um eine konsistente, klare und qualitativ hochwertige Sprachwiedergabe zu gewährleisten.

Direkte Verwendung:https://go.hyper.ai/AfgW5

5. Datensatz zur Gesichtsausdruckserkennung

Der Datensatz „Facial Emotion Recognition“ dient der Klassifizierung von Gesichtsausdrücken und wurde entwickelt, um verschiedene Modelle zur Emotionserkennung zu trainieren und zu evaluieren. Er umfasst die sieben Basisemotionen Wut, Ekel, Angst, Freude, Neutralität, Traurigkeit und Überraschung. Die Daten basieren auf den öffentlich verfügbaren Datensätzen FER2013 und RAF-DB und wurden aus diesen integriert. Die Gesichtsbilder wurden mittels HaarCascade (Konfidenzniveau ca. 0,8) gefiltert und gleichzeitig entrauscht und qualitativ verbessert.

Direkte Verwendung:https://go.hyper.ai/z5x5N

Dataset-Beispiel

6. AutoDock-GPU_Output Docking-Ergebnisdatensatz

AutoDock-GPU_Output ist ein Beispiel-Docking-Ausgabeprotokoll (.dlg), das durch Ausführen von AutoDock-GPU generiert wird. Es enthält Informationen wie Bindungsenergie, Konformationsclustering und die finale Ligandenposition. Es dient als Referenzdatensatz für die Auswertung von Docking-Ergebnissen und kann verwendet werden, um die Ergebnisauswertung zu erlernen und die korrekte Konfiguration der Umgebung zu überprüfen.

Direkte Verwendung:https://go.hyper.ai/zz7wV

Ausgewählte öffentliche Tutorials

1. PaddleOCR-VL: Multimodale Dokumentenanalyse

PaddleOCR-VL ist ein hochmodernes und ressourcenschonendes Modell, das speziell für die Dokumentenanalyse entwickelt wurde. Kernstück ist PaddleOCR-VL-0.9B, ein kompaktes und leistungsstarkes visuelles Sprachmodell (VLM), das einen dynamischen visuellen Encoder im NaViT-Stil mit dem Sprachmodell ERNIE-4.5-0.3B kombiniert und so eine präzise Elementerkennung ermöglicht. Dieses innovative Modell unterstützt 109 Sprachen und zeichnet sich durch die Erkennung komplexer Elemente wie Text, Tabellen, Formeln und Diagramme bei gleichzeitig extrem niedrigem Ressourcenverbrauch aus.

Online ausführen:https://go.hyper.ai/3OjbB

Effektbeispiele

2. LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

LongCat-Video ist ein Open-Source-KI-Videogenerierungsmodell mit 13,6 Milliarden Parametern, entwickelt vom LongCat-Team von Meituan. Es eignet sich hervorragend für Aufgaben wie Text-zu-Video, Bild-zu-Video und Videofortsetzung, insbesondere für die effiziente Generierung hochwertiger langer Videos. Durch Multi-Reward Reinforcement Learning Optimization (GRPO) erzielt das Modell in internen und öffentlichen Benchmark-Tests eine mit führenden Open-Source-Videogenerierungsmodellen und modernsten kommerziellen Lösungen vergleichbare Leistung.

Online ausführen:https://go.hyper.ai/3DWbb

Effektbeispiele

3. Bereitstellung von VibeThinker-1.5B mit vLLM + OpenWebUI

VibeThinker-1.5B ist das erste Open-Source-Modell für große Anwendungsfälle, das von Weibo AI veröffentlicht wurde. Seine Leistungsfähigkeit beruht nicht auf einer bloßen Anhäufung von Parametern, sondern auf dem von den Weibo-Entwicklern entwickelten SSP-Trainingskonzept. Dieses Konzept regt das Modell dazu an, während der Lernphase alle möglichen Lösungswege zu erkunden, anstatt sich ausschließlich auf die Genauigkeit zu konzentrieren. Anschließend wird Reinforcement Learning eingesetzt, um die Strategie effizient zu optimieren, den korrekten Pfad präzise zu fixieren und die Modellleistung zu maximieren.

Online ausführen:https://go.hyper.ai/PAcy1

Effektbeispiele

Die Zeitungsempfehlung dieser Woche

1. Kandinsky 5.0: Eine Familie von Grundlagenmodellen für die Bild- und Videogenerierung

Dieser Bericht stellt Kandinsky 5.0 vor, eine Familie grundlegender Modelle für die Synthese hochauflösender Bilder und 10-Sekunden-Videos. Das Framework umfasst drei Kernmodellfamilien: Kandinsky 5.0 Image Lite – eine Reihe von Bildgenerierungsmodellen mit 6 Milliarden Parametern; Kandinsky 5.0 Video Lite – ein schlankes und effizientes Modell zur Text-zu-Video- und Bild-zu-Video-Konvertierung mit 2 Milliarden Parametern; und Kandinsky 5.0 Video Pro – ein Modell mit 19 Milliarden Parametern, das eine außergewöhnliche Videogenerierungsqualität ermöglicht.

Link zum Artikel:https://go.hyper.ai/cpPY4

2. P1: Physik-Olympiaden meistern mit Reinforcement Learning

Diese Arbeit stellt die P1-Serie von Open-Source-Modellen zur physikalischen Inferenz vor, die vollständig durch Reinforcement Learning (RL) trainiert werden. Das Modell P1-235B-A22B ist das erste Open-Source-Modell, das bei der Internationalen Physikolympiade 2025 (IPhO 2025) eine Goldmedaille errang und in den Jahren 2024 und 2025 insgesamt 12 Goldmedaillen bei 13 internationalen und regionalen Physikwettbewerben gewann.

Link zum Artikel:https://go.hyper.ai/434Df

3. VIDEOP2R: Videoverständnis von der Wahrnehmung zum Schlussfolgern

Diese Arbeit stellt VideoP2R vor, ein neuartiges, prozedurales Framework für Video-Reinforcement-Learning mit Feinabstimmung, das die Fähigkeiten zum Video-Reasoning verbessert, indem es Wahrnehmung und Schlussfolgerung als zwei unabhängige Prozesse modelliert. Umfangreiche Experimente zeigen, dass VideoP2R in sechs von sieben Benchmarks für Video-Reasoning und -Verständnis Bestleistungen erzielt.

Link zum Artikel:https://go.hyper.ai/0CChs

4. Uni-MoE-2.0-Omni: Skalierung eines sprachzentrierten, omnimodalen Großmodells mit fortschrittlichem MoE, Training und Daten

Diese Arbeit stellt Uni-MoE 2.0 vor, ein vollständig quelloffenes, universelles, omnimodales Großmodell (OLM). Dieses Modell erweitert die technologische Entwicklung von Uni-MoE hinsichtlich sprachzentrierter multimodaler Fähigkeiten zum Verstehen, Schlussfolgern und Generieren von Informationen erheblich. Umfangreiche Evaluierungen anhand von 85 Benchmarks zeigen, dass dieses Modell die Leistung führender aktueller OLM-Modelle erreicht oder sich ihr annähert. In über 50 von 76 Benchmarks übertrifft es Qwen2.5-Omni, dessen Trainingsdatensatz 1,2 Billionen Token umfasst.

Link zum Artikel:https://go.hyper.ai/wETcQ

5. Intensives Denken: Selektive latente Iterationen zur Verbesserung von Modellen für logisches Denken

Diese Arbeit stellt Think-at-Hard (TaH) vor, einen dynamischen, impliziten Denkmechanismus, der tiefe Iterationen nur für schwer vorhersagbare Token durchführt. Die Methode verwendet einen ressourcenschonenden neuronalen Entscheidungsmechanismus, der implizite Iterationen nur für Token auslöst, bei denen die Standard-Vorwärtspropagierung möglicherweise fehlerhaft ist. Während des impliziten Iterationsprozesses verschiebt ein Modul zur Anpassung niedrigen Rangs (LoRA) das Ziel des LLM von der allgemeinen Vorhersage des nächsten Tokens hin zur Feinabstimmung schwieriger Token.

Link zum Artikel:https://go.hyper.ai/jp3xw

Weitere Artikel zu den Grenzen der KI:https://go.hyper.ai/iSYSZ

Interpretation von Gemeinschaftsartikeln

1. Interdisziplinäre Innovationen übertreffen die menschlichen Fähigkeiten bei Weitem? KI-Wissenschaftler stellen Hypothesen auf, führen Experimente durch und präsentieren auf Top-Konferenzen – und läuten damit ein neues Paradigma für die wissenschaftliche Forschung ein.

Im August 2024 präsentierte Sakana AI, gegründet von Llion Jones, einem der Autoren des Transformer-Papers, den weltweit ersten „KI-Wissenschaftler“. Dieser kann selbstständig Forschungsfragen formulieren, Experimente entwerfen und wissenschaftliche Artikel verfassen und sorgte damit für großes Aufsehen in der internationalen Wissenschaftsgemeinschaft. Von automatisierten Experimenten bis hin zu autonomen Entdeckungen – KI entwickelt sich vom Forschungsassistenten zum „Mitforscher“. Wie wird die Zukunft der Wissenschaft aussehen, wenn KI Einzug in die Labore hält?

Den vollständigen Bericht ansehen:https://go.hyper.ai/ICpf1

2. Online-Tutorial | Objekterkennung im Zeitalter der „globalen Bewusstseinsbildung“: Die Tsinghua-Universität und andere veröffentlichen YOLOv13 und erzielen Durchbrüche in Geschwindigkeit und Genauigkeit

Ein gemeinsames Forschungsteam von Experten der Tsinghua-Universität, der Technischen Universität Taiyuan und der Xi’an Jiaotong-Universität hat mit YOLOv13 ein neuartiges Objekterkennungsmodell entwickelt, das die Relevanzmodellierung von binären Daten auf komplexe Strukturen höherer Ordnung erweitert. Die Ergebnisse zeigen, dass YOLOv13 im Vergleich zu MS COCO signifikante Verbesserungen erzielt – von kleinen Modellen (N-Serie) bis hin zu großen Modellen – und dabei mit weniger Parametern und FLOPs eine herausragende Erkennungsleistung erreicht. Konkret verbessert YOLOv13-N den mAP-Wert um 3,01 TP3T gegenüber YOLOv11-N und um 1,51 TP3T gegenüber YOLOv12-N.

Den vollständigen Bericht ansehen:https://go.hyper.ai/W4vib

3. Durchbruch bei der Bildgeolokalisierung! Die University of Maine, Google, OpenAI und andere haben das LocDiff-Framework entwickelt, das eine präzise globale Positionierung ohne die Notwendigkeit von Gittern oder Referenzbibliotheken ermöglicht.

Ein gemeinsames Team der University of Maine, Google und der Harvard University entwickelte die „Spherical Harmonic Dirac Function (SHDD)“ und das dazugehörige Framework LocDiff. Durch die Entwicklung einer an die sphärische Geometrie angepassten Kodierungsmethode und Diffusionsarchitektur ermöglicht sie eine präzise Lokalisierung ohne vordefinierte Raster oder externe Bildbibliotheken und eröffnet damit einen bahnbrechenden technischen Weg für das Forschungsgebiet.

Den vollständigen Bericht ansehen:https://go.hyper.ai/Ucsq8

4. Von 9.874 Veröffentlichungen bis hin zu 15.000 Kristallstrukturen rekonstruiert MOF-ChemUnity das umfassende Wissen über MOF und führt die Materialforschung in das Zeitalter der „interpretierbaren KI“.

Ein Forschungsteam der Universität Toronto und des Clean Energy Innovation Research Centre des National Research Council of Canada hat MOF-ChemUnity entwickelt: einen strukturierten, skalierbaren und erweiterbaren Wissensgraphen. Diese Methode nutzt LLM, um eine zuverlässige Eins-zu-Eins-Zuordnung zwischen MOF-Namen und ihren Synonymen in der Literatur sowie den in der CSD registrierten Kristallstrukturen herzustellen und so eine eindeutige Unterscheidung zwischen MOF-Namen, ihren Synonymen und Kristallstrukturen zu ermöglichen.

Den vollständigen Bericht ansehen:https://go.hyper.ai/cRR1o

5. Von der Textilreinigung bis zum Queen Elizabeth Engineering Prize widerlegt Fei-Fei Li den Mythos der Silicon-Valley-Technologie und konzentriert sich auf die Risiken der Entmenschlichung durch KI.

Im Frühjahr 2025 wurde Fei-Fei Li mit dem Queen Elizabeth Award for Engineering für ihre grundlegenden Beiträge zur Computer Vision und zum Deep Learning ausgezeichnet. Als Schlüsselfigur im ImageNet-Projekt leistete sie Pionierarbeit bei datengetriebenen Methoden der Bilderkennung und entwickelte eine „menschenzentrierte“ KI-Philosophie. Dabei achtete sie stets auf die Ethik der KI, ihren gesellschaftlichen Nutzen und die Gefahr der Entmenschlichung inmitten der Kommerzialisierungswelle des Silicon Valley. Aufgrund ihrer Minderheitenzugehörigkeit befindet sie sich jedoch in einem Spannungsfeld zwischen wissenschaftlichen Errungenschaften und industrieller Praxis, was anhaltende Debatten auslöst.

Den vollständigen Bericht ansehen:https://go.hyper.ai/bRu25

Beliebte Enzyklopädieartikel

1. DALL-E

2. Hypernetzwerke

3. Pareto-Front

4. Bidirektionales Langzeit-Kurzzeitgedächtnis (Bi-LSTM)

5. Reziproke Rangfusion

Hier sind Hunderte von KI-bezogenen Begriffen zusammengestellt, die Ihnen helfen sollen, „künstliche Intelligenz“ zu verstehen:

https://go.hyper.ai/wiki

Top-Konferenz mit einer Frist im Dezember

Zentrale Verfolgung der wichtigsten wissenschaftlichen KI-Konferenzen:https://go.hyper.ai/event

Das Obige ist der gesamte Inhalt der Auswahl des Herausgebers dieser Woche. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!

Bis nächste Woche!

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung von inländischen beschleunigten Download-Knoten für über 1800 öffentliche Datensätze

* Enthält über 600 klassische und beliebte Online-Tutorials

* Interpretation von über 200 AI4Science-Papierfällen

* Unterstützt die Suche nach über 600 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai