Paper Weekly Report | ProgramBench Ermöglicht Es KI, Software Von Grund Auf Neu Zu Schreiben, Wobei 9 Wichtige Modelle Massenhaft Scheitern; ExoActor Demonstriert Eine Starke Fähigkeit Zur Szenengeneralisierung Ohne Zusätzliche Reale Daten… Ein Kurzer Überblick Über Die Neuesten KI-Veröffentlichungen Der Woche

vor 4 Stunden

Da Sprachmodelle zunehmend in der langfristigen Softwareentwicklung eingesetzt werden, reichen bestehende Benchmarks nicht mehr aus, um ihre Leistungsfähigkeit in den Bereichen Systemarchitektur, Modulpartitionierung und allgemeine Implementierung zu messen. Um dem entgegenzuwirken, schlug das SWE-Bench-Team den ProgramBench-Benchmark vor: Dabei erhalten die Modelle lediglich die ausführbare Datei und die zugehörige Dokumentation und müssen den Code umschreiben, um das Programmverhalten zu reproduzieren.

Die Studie erstellte 200 Aufgaben, die verschiedene Softwaretypen abdeckten, darunter Datenbanken, Compiler und Kommandozeilenprogramme, und bewertete die Übereinstimmung zwischen dem modellgenerierten Programm und dem Originalprogramm durch Verhaltenstests.Experimentelle Ergebnisse zeigen, dass die derzeitigen gängigen Modelle immer noch Schwierigkeiten haben, komplexe Software-Rekonstruktionsaufgaben zu bewältigen, und kein Modell alle Tests bestehen kann.Selbst das leistungsstärkste Modell, Claude Opus 4.7, erreichte nur bei wenigen Aufgaben eine hohe Erfolgsquote, was darauf hindeutet, dass große Sprachmodelle hinsichtlich ihrer allgemeinen Softwareentwicklungsfähigkeiten immer noch erhebliche Defizite aufweisen.

Link zum Artikel:https://go.hyper.ai/wExzR

Neueste KI-Artikel:https://go.hyper.ai/hzChC

Um mehr Nutzern die neuesten Entwicklungen auf dem Gebiet der künstlichen Intelligenz in der akademischen Welt näherzubringen,Die Website von HyperAI (hyper.ai) verfügt nun über einen Bereich „Neueste Veröffentlichungen“, der regelmäßig mit hochaktuellen KI-Forschungsarbeiten aktualisiert wird.Hier sind 8 beliebte KI-Veröffentlichungen, die wir empfehlen. Werfen wir einen kurzen Blick auf die neuesten KI-Erfolge dieser Woche ⬇️

Die Zeitungsempfehlung dieser Woche

1. ProgramBench

Titel des Artikels:

ProgramBench: Können Sprachmodelle Programme von Grund auf neu erstellen?

Das Forschungsteam entwickelte ProgramBench, um die Fähigkeit von Softwareentwicklungsagenten zu evaluieren, vollständige Softwareprojekte von Grund auf zu erstellen. Dieser Benchmark verlangt vom Agenten, eine Codebasis zu implementieren, die sich – ausschließlich basierend auf dem Programm und der Dokumentation – konsistent mit einer Referenz-Executable verhält, und eine End-to-End-Evaluierung mittels agentengesteuertem Fuzzing durchzuführen.

ProgramBench umfasst 200 Aufgaben, die verschiedene Softwaretypen abdecken, darunter CLI-Tools, FFmpeg, SQLite und PHP-Interpreter. Experimente mit neun Sprachmodellen zeigen, dass die aktuellen Modelle nur eine begrenzte Gesamtleistung aufweisen. Das beste Modell bestand den Test von 95% lediglich in der Aufgabe 3%, und der generierte Code weist im Allgemeinen eine monolithische, eindateiige Struktur auf, die sich deutlich von der üblichen Softwareentwicklungspraxis unterscheidet.

Papier und detaillierte Interpretation:https://go.hyper.ai/wExzR

Zusammensetzung und Quellen des Datensatzes: Die Autoren stellten 200 Aufgabeninstanzen aus Open-Source-GitHub-Repositories zusammen. Die Quellen stammen aus Projekten, die eigenständige ausführbare Dateien erzeugen, vorwiegend in Rust, Go oder C/C++. Die Sammlung umfasst verschiedene Funktionskategorien wie Textverarbeitung, Systemdienstprogramme und Sprachinterpreter.

2. Uni-OPD

Titel des Artikels:

Uni-OPD: Vereinheitlichung der Richtlinienkonformität durch ein Rezept aus zwei Perspektiven

Uni-OPD ist ein einheitliches Online-Destillationsframework für LLMs und MLLMs, das den Transfer von Expertenwissen auf studentische Modelle verbessern soll. Forschungsergebnisse zeigen, dass bestehende OPD-Methoden hauptsächlich durch zwei Probleme eingeschränkt sind: unzureichende Exploration informationsreicher Zustände und unzuverlässige Signale der Lehrendenaufsicht.

Um diesem Problem zu begegnen, verwendet Uni-OPD eine Optimierungsstrategie mit zwei Perspektiven: Auf der Seite der Lernenden wird eine Datenausgleichsstrategie eingeführt, um die Erkundung informationsreicher Zustände zu verbessern; auf der Seite der Lehrenden wird ein ergebnisorientierter Mechanismus zur marginalen Kalibrierung vorgeschlagen, um die sequentielle Konsistenz zwischen korrekten und inkorrekten Lernpfaden wiederherzustellen und so die Zuverlässigkeit der Betreuung zu erhöhen. Experimente in fünf Domänen und 16 Benchmarks, die verschiedene Szenarien wie Einzellehrer, Mehrlehrer, von starken zu schwachen Lernpfaden und modalitätsübergreifende Destillation umfassen, bestätigten die Wirksamkeit der Methode.

Papier und detaillierte Interpretation:https://go.hyper.ai/8k4du

3. Treue Ungewissheit

Titel des Artikels:

Halluzinationen untergraben das Vertrauen; Metakognition ist ein Weg nach vorn

Das Forschungsteam weist darauf hin, dass sich große Sprachmodelle zwar hinsichtlich ihrer faktischen Zuverlässigkeit stetig verbessern, das Problem der „Illusionen“ jedoch weiterhin besteht, insbesondere bei der Beantwortung faktischer Fragen, wenn externe Hilfsmittel fehlen. Die Studie argumentiert, dass der aktuelle Fortschritt eher auf der Erweiterung des Wissensumfangs als auf der tatsächlichen Fähigkeit des Modells beruht, zwischen „Bekanntem“ und „Unbekanntem“ zu unterscheiden. Daher könnte die vollständige Beseitigung von Illusionen einen natürlichen Kompromiss mit der Praktikabilität des Modells darstellen.

Ausgehend von dieser Perspektive schlägt die Studie das Konzept der „authentischen Unsicherheit“ vor und betont, dass Modelle ihre eigene Unsicherheit wahrheitsgemäß ausdrücken sollten, um die Konsistenz zwischen sprachlicher Unsicherheit und interner Kognition zu gewährleisten. Diese metakognitive Fähigkeit trägt nicht nur zur Verbesserung der Modellglaubwürdigkeit bei, sondern bietet auch einen zuverlässigeren Kontrollmechanismus für Suche und Entscheidungsfindung in intelligenten Agentensystemen.

Papier und detaillierte Interpretation:https://go.hyper.ai/G77rj

Zusammensetzung und Quelle des Datensatzes: Die Autoren erstellten einen synthetischen Datensatz mit 25.000 Stichproben, um die von Nakkiran et al. (2025) aufgezeichneten empirischen Konfidenzverteilungseigenschaften zu reproduzieren.

4. PRISMA

Titel des Artikels:

Über SFT-zu-RL hinaus: Vorabgleich mittels Black-Box-On-Policy-Destillation für multimodales RL

Um das Problem der Verteilungsverschiebung zu lösen, die das nachfolgende Reinforcement Learning während der Feinabstimmung großer multimodaler Modelle beeinflusst, schlug das Forschungsteam ein dreistufiges Verfahren namens PRISM vor. Dieses Verfahren fügt eine Verteilungsanpassungsphase auf Basis einer Intra-Policy-Destillation zwischen überwachter Feinabstimmung und Reinforcement Learning ein und nutzt einen hybriden Expertendiskriminator (MoE), um Entkopplungskorrektursignale bereitzustellen.

Unter Verwendung von 113.000 hochwertigen Gemini-Demo-Datensätzen verbesserte PRISM die Leistung des nachgelagerten Reinforcement Learning im Qwen3-VL-Experiment signifikant und erhöhte die Genauigkeit der 4B- und 8B-Modelle um 4,4 bzw. 6,0 Punkte.

Papier und detaillierte Interpretation:https://go.hyper.ai/5fsD3

Zusammensetzung und Quellen des Datensatzes: Diese Arbeit erstellt ein multimodales Schlussfolgerungskorpus mit Daten aus öffentlich verfügbaren Benchmark-Tests, die mathematisches Denken, wissenschaftliches Graphverständnis, Graphinterpretation und räumliches Denken abdecken. Um die Abdeckung und Stabilität zu erhöhen, wird dieser sorgfältig ausgewählte Datensatz durch 1,26 Millionen öffentlich verfügbare Demodaten ergänzt, die mit derselben Gemini-Modellreihe generiert wurden.

5. ExoActor

Titel des Artikels:

ExoActor: Exozentrische Videogenerierung als generalisierbare interaktive humanoide Steuerung

Das Forschungsteam entwickelte das ExoActor-Framework, das exozentrische Videogenerierung als einheitliche Schnittstelle nutzt, um die kollaborativen Interaktionen zwischen Roboter, Umgebung und Objekten implizit zu kodieren. Es wandelt das synthetisierte Ausführungsvideo mithilfe von Bewegungsabschätzung und einem allgemeinen Bewegungscontroller in ausführbare Verhaltensweisen des humanoiden Roboters um und demonstriert so die Fähigkeit, ohne zusätzliche Datenerfassung vor Ort auf neue Szenarien zu generalisieren.

Papier und detaillierte Interpretation:https://go.hyper.ai/OE5IH

6. Edit-R1

Titel des Artikels:

Nutzung von verifiziererbasiertem Reinforcement Learning in der Bildbearbeitung

Das Forschungsteam entwickelte Edit-R1, ein Reinforcement-Learning-Framework für die Bildbearbeitung. Im Gegensatz zu herkömmlichen Belohnungsmodellen, die lediglich eine Gesamtpunktzahl ausgeben, zerlegt Edit-R1 Bearbeitungsanweisungen in mehrere Prinzipien und überprüft die Ergebnisse Element für Element anhand von Denkketten. Dadurch werden differenziertere und besser interpretierbare Belohnungssignale generiert. Die Forschung kombiniert zudem überwachtes Feintuning mit GCPO-Reinforcement-Learning-Strategien, um die Fähigkeit des Belohnungsmodells zur Modellierung menschlicher Präferenzen zu verbessern, und nutzt GCPO zum Trainieren nachgelagerter Bearbeitungsmodelle.

Experimentelle Ergebnisse zeigen, dass Edit-RRM leistungsstarke VLMs wie Seed-1.5-VL und Seed-1.6-VL bei der Bildbearbeitungsbewertung übertrifft und die Leistung von Bearbeitungsmodellen wie FLUX.1-kontext deutlich verbessert, während gleichzeitig signifikante Vorteile durch die Parametererweiterung aufgezeigt werden.

Papier und detaillierte Interpretation:https://go.hyper.ai/MtBLB

**Trainingsprozess des validatorbasierten Belohnungsmodells (RRM)**

Zusammensetzung und Quelle des Datensatzes: Das Forschungsteam erstellte einen überwachten Datensatz für ein Cold-Start-Inferenz-Belohnungsmodell, indem es 200.000 Beispiele aus öffentlich verfügbaren Bildbearbeitungs-Benchmarks zusammenstellte. Dieser ursprüngliche Datensatz wurde durch Multi-Modell-Generierung und systematische Validierung auf etwa 2 Millionen Datenvierfache erweitert.

7. Gemeinsame Entwicklung der Politik – Destillation

Titel des Artikels:

Gemeinsame Entwicklung der Politik – Destillation

Das Forschungsteam führte eine einheitliche Analyse der beiden gängigen Nachschulungsparadigmen, RLVR und OPD, durch und wies darauf hin, dass diese unterschiedliche Einschränkungen bei der Integration mehrerer Expertenkompetenzen aufweisen: Das hybride RLVR ist anfällig für „Kosten der Kompetenzdivergenz“, während der traditionelle Prozess, „erst Experten auszubilden und dann OPD zu implementieren“, Kompetenzkonflikte vermeidet, es aber aufgrund der großen Unterschiede in den Verhaltensmustern zwischen Lehrern und Schülern schwierig ist, Expertenkompetenzen vollständig zu übernehmen.

Um dieses Problem zu lösen, schlägt diese Studie eine koevolutionäre Strategie vor, CoPD (Koevolutionäre Verarbeitung). Diese führt bidirektionale OPD (Optische Verarbeitungsderivate) ein, während Experten kontinuierlich für RLVR (Referenzbasiertes RLVR) trainieren. Dadurch können Experten sich gegenseitig als Lehrende fungieren und gemeinsam weiterentwickeln, was die Verhaltenskonsistenz verbessert und gleichzeitig komplementäre Fähigkeiten erhält. Experimentelle Ergebnisse zeigen, dass CoPD Text-, Bild- und Videoanalyse effektiv integriert und starke Vergleichsmodelle wie hybrides RLVR und MOPD deutlich übertrifft. In einigen Aufgaben übertrifft CoPD sogar Domänenexpertenmodelle.

Papier und detaillierte Interpretation:https://go.hyper.ai/cCyrG

8. ClawGym

Titel des Artikels:

ClawGym: Ein skalierbares Framework zum Erstellen effektiver Claw-Agenten

Das Forschungsteam entwickelte ClawGym, ein skalierbares Framework für den gesamten Lebenszyklus der Entwicklung persönlicher Agenten im Claw-Stil, um komplexe, mehrstufige Arbeitsabläufe mit lokalen Dateien, Tool-Aufrufen und persistenten Arbeitsbereichszuständen zu unterstützen.

Das Framework umfasst den synthetischen Datensatz ClawGym-SynData mit 13.500 ausgewählten Aufgaben und kombiniert menschliche Intention, Fertigkeitsausführung, simulierten Arbeitsbereich und hybride Verifikationsmechanismen. ClawGym-Agenten werden anhand von Black-Box-Rollout-Trajektorien trainiert und ihre Fähigkeiten durch eine ressourcenschonende Reinforcement-Learning-Pipeline verbessert. Zusätzlich wurde für eine zuverlässige Evaluierung ein Benchmark-Set, ClawGym-Bench, erstellt, das automatisch ausgewählt und gemeinsam von Menschen und LLM überprüft und kalibriert wird.

Papier und detaillierte Interpretation:https://go.hyper.ai/yZwa5

Datenquelle: Das Forschungsteam generierte Trainingsdaten mithilfe des ClawGym-SynData-Frameworks, das persönlichkeitsorientierte Top-Down-Synthese für verschiedene Benutzerszenarien mit Bottom-Up-Synthese kombiniert, die auf der Technologie der Verbindung von OpenClaw-Funktionen in einen realen Arbeitsablauf basiert.

Dies ist der gesamte Inhalt der Papierempfehlung dieser Woche. Weitere aktuelle KI-Forschungsarbeiten finden Sie im Bereich „Neueste Arbeiten“ auf der offiziellen Website von hyper.ai.

Wir freuen uns auch über die Einreichung hochwertiger Ergebnisse und Veröffentlichungen durch Forschungsteams. Interessierte können sich im NeuroStar WeChat anmelden (WeChat-ID: Hyperai01).

Bis nächste Woche!

Verwandt Neuigkeiten

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Extrem Leichtgewichtig Und Dennoch Mit Unverminderter Bildqualität! ERNIE-Image-Turbo: Schluss Mit Langen Wartezeiten, Blitzschnelle Geschwindigkeit! Einführung Zweidimensionaler Metriken Für Wahrnehmung Und Kognition: Alibabas Einheitlicher Multimodaler Parsing- Und Evaluierungsdatensatz OmniParsingBench Ist Jetzt online.

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

MOSS-TTS: Ein Entkoppeltes, Produktionsreifes Sprachgenerierungsmodell Basierend Auf Der CAT-Architektur; Überwindung Der Barriere Der Einzelzellanalyse: Erstellung Eines Benchmarks Für Einen Krebsübergreifenden Immunatlas Unter Verwendung Des Pan-Cancer scRNA-Seq-Datensatzes.

Geringe Latenz, Mehrsprachige Unterstützung Und Schlankes Design: Voxtral Realtime Überwindet Die Einschränkungen Der Automatischen Spracherkennung in Allen Anwendungsszenarien – Ein Gewinn Für Die Entwicklung Tragbarer Geräte! Antenna Performance Erstellt Einen Datensatz Zur Antennenleistung Und Zu Fehlern.

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

HyperAI

Paper Weekly Report | ProgramBench Ermöglicht Es KI, Software Von Grund Auf Neu Zu Schreiben, Wobei 9 Wichtige Modelle Massenhaft Scheitern; ExoActor Demonstriert Eine Starke Fähigkeit Zur Szenengeneralisierung Ohne Zusätzliche Reale Daten… Ein Kurzer Überblick Über Die Neuesten KI-Veröffentlichungen Der Woche

vor 4 Stunden

Information

Künstliche Intelligenz

Link zum Artikel:https://go.hyper.ai/wExzR

Neueste KI-Artikel:https://go.hyper.ai/hzChC

Die Zeitungsempfehlung dieser Woche

1. ProgramBench

Titel des Artikels:

ProgramBench: Können Sprachmodelle Programme von Grund auf neu erstellen?

Papier und detaillierte Interpretation:https://go.hyper.ai/wExzR

2. Uni-OPD

Titel des Artikels:

Uni-OPD: Vereinheitlichung der Richtlinienkonformität durch ein Rezept aus zwei Perspektiven

Papier und detaillierte Interpretation:https://go.hyper.ai/8k4du

3. Treue Ungewissheit

Titel des Artikels:

Halluzinationen untergraben das Vertrauen; Metakognition ist ein Weg nach vorn

Papier und detaillierte Interpretation:https://go.hyper.ai/G77rj

4. PRISMA

Titel des Artikels:

Über SFT-zu-RL hinaus: Vorabgleich mittels Black-Box-On-Policy-Destillation für multimodales RL

Papier und detaillierte Interpretation:https://go.hyper.ai/5fsD3

5. ExoActor

Titel des Artikels:

ExoActor: Exozentrische Videogenerierung als generalisierbare interaktive humanoide Steuerung

Papier und detaillierte Interpretation:https://go.hyper.ai/OE5IH

6. Edit-R1

Titel des Artikels:

Nutzung von verifiziererbasiertem Reinforcement Learning in der Bildbearbeitung

Papier und detaillierte Interpretation:https://go.hyper.ai/MtBLB

7. Gemeinsame Entwicklung der Politik – Destillation

Titel des Artikels:

Gemeinsame Entwicklung der Politik – Destillation

Papier und detaillierte Interpretation:https://go.hyper.ai/cCyrG

8. ClawGym

Titel des Artikels:

ClawGym: Ein skalierbares Framework zum Erstellen effektiver Claw-Agenten

Papier und detaillierte Interpretation:https://go.hyper.ai/yZwa5

Dies ist der gesamte Inhalt der Papierempfehlung dieser Woche. Weitere aktuelle KI-Forschungsarbeiten finden Sie im Bereich „Neueste Arbeiten“ auf der offiziellen Website von hyper.ai.

Wir freuen uns auch über die Einreichung hochwertiger Ergebnisse und Veröffentlichungen durch Forschungsteams. Interessierte können sich im NeuroStar WeChat anmelden (WeChat-ID: Hyperai01).

Bis nächste Woche!

Verwandt Neuigkeiten

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Extrem Leichtgewichtig Und Dennoch Mit Unverminderter Bildqualität! ERNIE-Image-Turbo: Schluss Mit Langen Wartezeiten, Blitzschnelle Geschwindigkeit! Einführung Zweidimensionaler Metriken Für Wahrnehmung Und Kognition: Alibabas Einheitlicher Multimodaler Parsing- Und Evaluierungsdatensatz OmniParsingBench Ist Jetzt online.

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

MOSS-TTS: Ein Entkoppeltes, Produktionsreifes Sprachgenerierungsmodell Basierend Auf Der CAT-Architektur; Überwindung Der Barriere Der Einzelzellanalyse: Erstellung Eines Benchmarks Für Einen Krebsübergreifenden Immunatlas Unter Verwendung Des Pan-Cancer scRNA-Seq-Datensatzes.

Geringe Latenz, Mehrsprachige Unterstützung Und Schlankes Design: Voxtral Realtime Überwindet Die Einschränkungen Der Automatischen Spracherkennung in Allen Anwendungsszenarien – Ein Gewinn Für Die Entwicklung Tragbarer Geräte! Antenna Performance Erstellt Einen Datensatz Zur Antennenleistung Und Zu Fehlern.

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Command Palette

Die Zeitungsempfehlung dieser Woche

1. ProgramBench

ProgramBench: Können Sprachmodelle Programme von Grund auf neu erstellen?

2. Uni-OPD

Uni-OPD: Vereinheitlichung der Richtlinienkonformität durch ein Rezept aus zwei Perspektiven

3. Treue Ungewissheit

Halluzinationen untergraben das Vertrauen; Metakognition ist ein Weg nach vorn

4. PRISMA

Über SFT-zu-RL hinaus: Vorabgleich mittels Black-Box-On-Policy-Destillation für multimodales RL

5. ExoActor

ExoActor: Exozentrische Videogenerierung als generalisierbare interaktive humanoide Steuerung

6. Edit-R1

Nutzung von verifiziererbasiertem Reinforcement Learning in der Bildbearbeitung

7. Gemeinsame Entwicklung der Politik – Destillation

Gemeinsame Entwicklung der Politik – Destillation

8. ClawGym

ClawGym: Ein skalierbares Framework zum Erstellen effektiver Claw-Agenten

Command Palette

Die Zeitungsempfehlung dieser Woche

1. ProgramBench

ProgramBench: Können Sprachmodelle Programme von Grund auf neu erstellen?

2. Uni-OPD

Uni-OPD: Vereinheitlichung der Richtlinienkonformität durch ein Rezept aus zwei Perspektiven

3. Treue Ungewissheit

Halluzinationen untergraben das Vertrauen; Metakognition ist ein Weg nach vorn

4. PRISMA

Über SFT-zu-RL hinaus: Vorabgleich mittels Black-Box-On-Policy-Destillation für multimodales RL

5. ExoActor

ExoActor: Exozentrische Videogenerierung als generalisierbare interaktive humanoide Steuerung

6. Edit-R1

Nutzung von verifiziererbasiertem Reinforcement Learning in der Bildbearbeitung

7. Gemeinsame Entwicklung der Politik – Destillation

Gemeinsame Entwicklung der Politik – Destillation

8. ClawGym

ClawGym: Ein skalierbares Framework zum Erstellen effektiver Claw-Agenten

Verwandt Neuigkeiten

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

MOSS-TTS: Ein Entkoppeltes, Produktionsreifes Sprachgenerierungsmodell Basierend Auf Der CAT-Architektur; Überwindung Der Barriere Der Einzelzellanalyse: Erstellung Eines Benchmarks Für Einen Krebsübergreifenden Immunatlas Unter Verwendung Des Pan-Cancer scRNA-Seq-Datensatzes.

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Command Palette

Die Zeitungsempfehlung dieser Woche

1. ProgramBench

ProgramBench: Können Sprachmodelle Programme von Grund auf neu erstellen?

2. Uni-OPD

Uni-OPD: Vereinheitlichung der Richtlinienkonformität durch ein Rezept aus zwei Perspektiven

3. Treue Ungewissheit

Halluzinationen untergraben das Vertrauen; Metakognition ist ein Weg nach vorn

4. PRISMA

Über SFT-zu-RL hinaus: Vorabgleich mittels Black-Box-On-Policy-Destillation für multimodales RL

5. ExoActor

ExoActor: Exozentrische Videogenerierung als generalisierbare interaktive humanoide Steuerung

6. Edit-R1

Nutzung von verifiziererbasiertem Reinforcement Learning in der Bildbearbeitung

7. Gemeinsame Entwicklung der Politik – Destillation

Gemeinsame Entwicklung der Politik – Destillation

8. ClawGym

ClawGym: Ein skalierbares Framework zum Erstellen effektiver Claw-Agenten

Verwandt Neuigkeiten

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

MOSS-TTS: Ein Entkoppeltes, Produktionsreifes Sprachgenerierungsmodell Basierend Auf Der CAT-Architektur; Überwindung Der Barriere Der Einzelzellanalyse: Erstellung Eines Benchmarks Für Einen Krebsübergreifenden Immunatlas Unter Verwendung Des Pan-Cancer scRNA-Seq-Datensatzes.

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Verwandt Neuigkeiten

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

MOSS-TTS: Ein Entkoppeltes, Produktionsreifes Sprachgenerierungsmodell Basierend Auf Der CAT-Architektur; Überwindung Der Barriere Der Einzelzellanalyse: Erstellung Eines Benchmarks Für Einen Krebsübergreifenden Immunatlas Unter Verwendung Des Pan-Cancer scRNA-Seq-Datensatzes.

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Verwandt Neuigkeiten

Zusammenstellung Von Fachartikeln | Über 100 Wichtige Errungenschaften Im Bereich KI Für Die Wissenschaft: Ein Kurzer Überblick Über Technologische Innovationen Bis 2025