HyperAI

AI Weekly Paper Report: Neueste Forschungsergebnisse Von Alibaba, Der Xiamen University, Der Zhejiang University Und Anderen, Zu Optimierungsalgorithmen Für Reinforcement Learning, GUI-Agenten, Multimodaler Kontextkomprimierung Und Mehr

特色图像

Da groß angelegte Sprachmodelle immer weiter skaliert werden, wird effizientes und stabiles Reinforcement-Learning-Training zu einer zentralen Herausforderung. Um dieses Problem zu lösen, hat das Qwen-Team der Alibaba Group einen neuartigen Reinforcement-Learning-Algorithmus vorgeschlagen: Group Sequence Policy Optimization (GSPO).

Im Gegensatz zu herkömmlichen Methoden, die auf Token-Ebene-Wichtigkeitsverhältnissen basieren, definiert GSPO Wichtigkeitsverhältnisse basierend auf Sequenzwahrscheinlichkeiten und führt Kürzungen, Belohnungen und Optimierungen auf Sequenzebene durch, wodurch die Trainingsstabilität und -effizienz deutlich verbessert wird. GSPO bietet eine hervorragende Leistung innerhalb der Mixture-of-Experts-Architektur, vereinfacht die Gestaltung der Infrastruktur für bestärkendes Lernen und verbessert die Leistung des neuesten Qwen3-Modells erheblich.

Link zum Artikel:https://go.hyper.ai/FOrdj

Neueste KI-Artikel:https://go.hyper.ai/hzChC

Um mehr Benutzer über die neuesten Entwicklungen im Bereich der künstlichen Intelligenz in der Wissenschaft zu informieren, wurde auf der offiziellen Website von HyperAI (hyper.ai) jetzt der Bereich „Neueste Artikel“ eingerichtet, in dem täglich hochmoderne KI-Forschungsartikel aktualisiert werden.Hier sind 5 beliebte KI-Artikel, die wir empfehlen, werfen wir einen kurzen Blick auf die bahnbrechenden KI-Errungenschaften dieser Woche ⬇️

Die Zeitungsempfehlung dieser Woche

1 Optimierung der Gruppensequenzrichtlinie

Dieses Dokument stellt die Group Sequence Policy Optimization (GSPO) vor, einen stabilen, effizienten und leistungsstarken Reinforcement-Learning-Algorithmus für das Training großer Sprachmodelle. Im Gegensatz zu früheren Algorithmen, die Token-Wichtigkeitsverhältnisse verwenden, definiert GSPO Wichtigkeitsverhältnisse basierend auf der Sequenzwahrscheinlichkeit und führt Bereinigung, Belohnungen und Optimierung auf Sequenzebene durch.

Link zum Artikel:https://go.hyper.ai/FOrdj

Experimentelles Datendiagramm

2 UI-AGILE: Weiterentwicklung von GUI-Agenten mit effektivem Reinforcement Learning und präziser Inferenzzeit-Erdung

Bestehende Trainings- und Inferenzmethoden für GUI-Agenten stehen noch immer vor Herausforderungen wie Schwierigkeiten beim Inferenzdesign, ineffektiven Belohnungsmechanismen und visuellen Störgeräuschen. Dieses Papier schlägt eine neuartige Methode vor – die selektive Dekompositionsausrichtung –, die die Ausrichtungsgenauigkeit auf hochauflösenden Schnittstellen durch die Aufteilung des Bildes in kleinere, handlichere Teile deutlich verbessert. Experimentelle Ergebnisse zeigen, dass UI-AGILE bei zwei Benchmark-Aufgaben Spitzenleistung erzielt: ScreenSpot-Pro und ScreenSpot-v2.

Link zum Artikel:https://go.hyper.ai/SRpdE

Modellarchitekturdiagramm

3 Wenn Token zu viel reden:  Eine Untersuchung zur multimodalen Long-Context-Token-Komprimierung für Bilder, Videos und Audios

Dieser Artikel präsentiert die erste systematische Übersicht und Zusammenfassung des sich rasant entwickelnden Forschungsgebiets der multimodalen Long-Context-Token-Komprimierung. Angesichts der einzigartigen Eigenschaften und Redundanz verschiedener Modalitäten haben Forscher bestehende Methoden nach der Art der Daten kategorisiert, die sie primär adressieren. Dies ermöglicht einen schnellen Zugriff auf Methoden, die für bestimmte Forschungsbereiche anwendbar sind: bildzentrierte Komprimierung, videozentrierte Komprimierung und audiozentrierte Komprimierung.

Link zum Artikel:https://go.hyper.ai/nOYw4

Modellarchitekturdiagramm

4 SciToolAgent: Ein wissensgraphenbasierter wissenschaftlicher Agent für die Multi-Tool-Integration

Dieses Dokument stellt SciToolAgent vor, einen Agenten auf Basis des LLM, der die Bedienung von Hunderten wissenschaftlicher Forschungstools in den Bereichen Biologie, Chemie und Materialwissenschaften automatisiert. Im Kern ist SciToolAgent ein Wissensgraph für wissenschaftliche Tools, der einen graphenbasierten Retrieval-Augmented Generation (RAG)-Mechanismus nutzt, um eine intelligente Toolauswahl und -ausführung zu ermöglichen. Das System integriert außerdem ein umfassendes Sicherheitsprüfmodul, um einen verantwortungsvollen und ethischen Tooleinsatz zu gewährleisten.

Link zum Artikel:https://go.hyper.ai/IOiRk

Modellarchitekturdiagramm

5 SmallThinker: Eine Familie effizienter  Große Sprachmodelle nativ  Für den lokalen Einsatz geschult

Dieses Dokument stellt SmallThinker vor, eine Reihe von LLMs, die nativ für lokale Geräte entwickelt wurden (und nicht aus Cloud-Modellen komprimiert wurden). Sie sind speziell auf die spezifischen Einschränkungen lokaler Geräte zugeschnitten: schwache Rechenleistung, begrenzter Speicher und langsamer Datenspeicher. SmallThinker wurde architektonisch neu konzipiert, um auch in eingeschränkten Umgebungen effizient zu arbeiten. Im Kern zeichnet es sich durch eine innovative, „implementierungsorientierte“ Architektur aus, die Systembeschränkungen in Designprinzipien umsetzt.

Link zum Artikel:https://go.hyper.ai/tSwpG

Modellarchitekturdiagramm

Dies ist der gesamte Inhalt der Papierempfehlung dieser Woche. Weitere aktuelle KI-Forschungsarbeiten finden Sie im Bereich „Neueste Arbeiten“ auf der offiziellen Website von hyper.ai.

Wir freuen uns auch über die Einreichung hochwertiger Ergebnisse und Veröffentlichungen durch Forschungsteams. Interessierte können sich im NeuroStar WeChat anmelden (WeChat-ID: Hyperai01).

Bis nächste Woche!