HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Automatisierte Erkennung klinischer Probleme aus SOAP-Notizen mithilfe einer kooperativen Mehr-Agenten-LLM-Architektur

Automatisierte Erkennung klinischer Probleme aus SOAP-Notizen mithilfe einer kooperativen Mehr-Agenten-LLM-Architektur

Yeawon Lee, Xiaoyang Wang, Christopher C. Yang

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln

Dokumentenverstehen

Luca Soldaini, Kyle Lo, Christopher Wilhelm, et al.

VA-MoE: Variables-Adaptive Mixture of Experts für inkrementelle Wettervorhersage

KI Für Die Wissenschaft

Hao Chen, Han Tao, Guo Song, et al.

Wie kann eine Eingabereformulierung die Genauigkeit der Werkzeugnutzung in einer komplexen dynamischen Umgebung verbessern? Eine Studie zu $τ$-bench

Venkatesh Mishra, Amir Saeidi, Satyam Raj, et al.

Evaluierung auf UI-Ebene von ALLaM 34B: Messung eines arabisch-zentrierten LLM mittels HUMAIN Chat

Natürliche Sprachverarbeitung

Von reaktiv zu kognitiv: gehirngestützte räumliche Intelligenz für körperhafte Agenten

Körperliche Intelligenz

Shouwei Ruan, Liyuan Wang, Caixin Kang, et al.

Kein Label zurückgelassen: Ein vereinheitlichtes Modell zur Oberflächenfehlererkennung für alle Überwachungsregime

Computer Vision

Objekterkennung

Blaž Rolih, Matic Fučka, Danijel Skočaj

T2R-bench: Ein Benchmark zur Generierung von artikelbasierten Berichten aus realen industriellen Tabellen

Jie Zhang, Changzai Pan, Kaiwen Wei, et al.

PVPO: Vorabgeschätzte wertbasierte Politikoptimierung für agenteles Denken

Verstärkendes Lernen

Wenfeng Feng, Penghong Zhao, Guochao Jiang, et al.

Das Training eines hilfreichen und harmlosen Assistenten mit dem Verstärkungslernen aus menschlicher Rückmeldung

Präferenzmodellierung

Verstärkendes Lernen

Yuntao Bai, Andy Jones, Kamal Ndousse, et al.

UQ: Beurteilung von Sprachmodellen auf ungelösten Fragen

Fan Nie, Ken Ziyu Liu, Zihao Wang, et al.

CARJAN: agentenbasierte Generierung und Simulation von Verkehrszenarien mit AJAN

Leonard Frank Neis, Andre Antakli, Matthias Klusch

TiKMiX: Datenbeeinflussung in dynamische Mischung für die Sprachmodell-Vortrainierung einbeziehen

Yifan Wang, Binbin Liu, Fengze Liu, et al.

TalkVid: Ein großskaliges und vielfältiges Datensatz für audiogetriebene Synthese von sprechenden Köpfen

Shunian Chen, Hejin Huang, Yexin Liu, et al.

Droplet3D: Alltagswissen aus Videos unterstützt die 3D-Generierung

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

A.S.E.: Ein benchmark auf Repository-Ebene zur Bewertung der Sicherheit in künstlich generiertem Code

Codegenerierung

Keke Lian, Bin Wang, Lei Zhang, et al.

EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

Körperliche Intelligenz

Delin Qu, Haoming Song, Qizhi Chen, et al.

R-4B: Anreizung einer allgemeinen Auto-Denkfähigkeit in MLLMs durch zweistufige Annealing- und Verstärkungslernverfahren

Jie Jiang, Qi Yang, Bolin Ni, et al.

Anfachen kreativen Schreibens in kleinen Sprachmodellen: LLM-as-a-Judge im Vergleich zu mehragentenbasierten verfeinerten Belohnungen

Überwachtes Feinabstimmen

Präferenzmodellierung

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

TMUAD: Verbesserung logischer Fähigkeiten in einheitlichen Anomalieerkennungsmodellen mit einem Text-Speicherbank

Computer Vision

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

Analyse der Denkketten-Dynamik: Aktive Steuerung oder untreue nachträgliche Rationalisierung?

Überwachtes Feinabstimmen

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

AWorld: Die Koordination des Trainingsrezepts für agente AI

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

Zhenting Wang, Qi Chang, Hemani Patel, et al.

rStar2-Agent: Technischer Bericht zur agentenbasierten Schlussfolgerung

Verstärkendes Lernen

Ning Shang, Yifei Liu, Yi Zhu, et al.

Pref-GRPO: Paarweiser Präferenz-Reward-basierter GRPO für stabiles Text-zu-Bild-Reinforcement-Learning

Präferenzmodellierung

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

MobileCLIP2: Verbesserung des multimodalen verstärkten Trainings

Bildbeschreibung

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

KI-KI-Ästhetische Zusammenarbeit mit expliziter semiotischer Bewusstheit und emergenter Grammatikentwicklung

Künstliche Intelligenz

Natürliche Sprachverarbeitung

Nicanor I. Moldovan

In das Herz blicken: Ein Multiview-Video-Datensatz für die rPPG- und Gesundheitsbiomarker-Schätzung

Computer Vision

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

MIDAS: Multimodale interaktive digitale Mensch-Synthese durch Echtzeit-Autoregressive Videogenerierung

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

Diskrete Diffusions-VLA: Einbringen diskreter Diffusion in die Aktionstdekodierung von visuell-sprachlich-handelnden Politiken

Diffusionsmodell

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

Selbstbelohnender visuell-sprachlicher Modellierungsansatz durch Reasoning-Dekomposition

Visuelle Fragebeantwortung

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

Automatisierte Erkennung klinischer Probleme aus SOAP-Notizen mithilfe einer kooperativen Mehr-Agenten-LLM-Architektur

Automatisierte Erkennung klinischer Probleme aus SOAP-Notizen mithilfe einer kooperativen Mehr-Agenten-LLM-Architektur

Yeawon Lee, Xiaoyang Wang, Christopher C. Yang

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln

olmOCR: Trillionen von Tokens in PDFs mit Vision-Language-Modellen entschlüsseln

Dokumentenverstehen

Luca Soldaini, Kyle Lo, Christopher Wilhelm, et al.

VA-MoE: Variables-Adaptive Mixture of Experts für inkrementelle Wettervorhersage

KI Für Die Wissenschaft

Hao Chen, Han Tao, Guo Song, et al.

Wie kann eine Eingabereformulierung die Genauigkeit der Werkzeugnutzung in einer komplexen dynamischen Umgebung verbessern? Eine Studie zu $τ$-bench

Venkatesh Mishra, Amir Saeidi, Satyam Raj, et al.

Evaluierung auf UI-Ebene von ALLaM 34B: Messung eines arabisch-zentrierten LLM mittels HUMAIN Chat

Natürliche Sprachverarbeitung

Von reaktiv zu kognitiv: gehirngestützte räumliche Intelligenz für körperhafte Agenten

Körperliche Intelligenz

Shouwei Ruan, Liyuan Wang, Caixin Kang, et al.

Kein Label zurückgelassen: Ein vereinheitlichtes Modell zur Oberflächenfehlererkennung für alle Überwachungsregime

Computer Vision

Objekterkennung

Blaž Rolih, Matic Fučka, Danijel Skočaj

T2R-bench: Ein Benchmark zur Generierung von artikelbasierten Berichten aus realen industriellen Tabellen

Jie Zhang, Changzai Pan, Kaiwen Wei, et al.

PVPO: Vorabgeschätzte wertbasierte Politikoptimierung für agenteles Denken

Verstärkendes Lernen

Wenfeng Feng, Penghong Zhao, Guochao Jiang, et al.

Das Training eines hilfreichen und harmlosen Assistenten mit dem Verstärkungslernen aus menschlicher Rückmeldung

Präferenzmodellierung

Verstärkendes Lernen

Yuntao Bai, Andy Jones, Kamal Ndousse, et al.

UQ: Beurteilung von Sprachmodellen auf ungelösten Fragen

Fan Nie, Ken Ziyu Liu, Zihao Wang, et al.

CARJAN: agentenbasierte Generierung und Simulation von Verkehrszenarien mit AJAN

Leonard Frank Neis, Andre Antakli, Matthias Klusch

TiKMiX: Datenbeeinflussung in dynamische Mischung für die Sprachmodell-Vortrainierung einbeziehen

Yifan Wang, Binbin Liu, Fengze Liu, et al.

TalkVid: Ein großskaliges und vielfältiges Datensatz für audiogetriebene Synthese von sprechenden Köpfen

Shunian Chen, Hejin Huang, Yexin Liu, et al.

Droplet3D: Alltagswissen aus Videos unterstützt die 3D-Generierung

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

A.S.E.: Ein benchmark auf Repository-Ebene zur Bewertung der Sicherheit in künstlich generiertem Code

Codegenerierung

Keke Lian, Bin Wang, Lei Zhang, et al.

EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

Körperliche Intelligenz

Delin Qu, Haoming Song, Qizhi Chen, et al.

R-4B: Anreizung einer allgemeinen Auto-Denkfähigkeit in MLLMs durch zweistufige Annealing- und Verstärkungslernverfahren

Jie Jiang, Qi Yang, Bolin Ni, et al.

Anfachen kreativen Schreibens in kleinen Sprachmodellen: LLM-as-a-Judge im Vergleich zu mehragentenbasierten verfeinerten Belohnungen

Überwachtes Feinabstimmen

Präferenzmodellierung

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

TMUAD: Verbesserung logischer Fähigkeiten in einheitlichen Anomalieerkennungsmodellen mit einem Text-Speicherbank

Computer Vision

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

Analyse der Denkketten-Dynamik: Aktive Steuerung oder untreue nachträgliche Rationalisierung?

Überwachtes Feinabstimmen

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

AWorld: Die Koordination des Trainingsrezepts für agente AI

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

Zhenting Wang, Qi Chang, Hemani Patel, et al.

rStar2-Agent: Technischer Bericht zur agentenbasierten Schlussfolgerung

Verstärkendes Lernen

Ning Shang, Yifei Liu, Yi Zhu, et al.

Pref-GRPO: Paarweiser Präferenz-Reward-basierter GRPO für stabiles Text-zu-Bild-Reinforcement-Learning

Präferenzmodellierung

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

MobileCLIP2: Verbesserung des multimodalen verstärkten Trainings

Bildbeschreibung

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

KI-KI-Ästhetische Zusammenarbeit mit expliziter semiotischer Bewusstheit und emergenter Grammatikentwicklung

Künstliche Intelligenz

Natürliche Sprachverarbeitung

Nicanor I. Moldovan

In das Herz blicken: Ein Multiview-Video-Datensatz für die rPPG- und Gesundheitsbiomarker-Schätzung

Computer Vision

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

MIDAS: Multimodale interaktive digitale Mensch-Synthese durch Echtzeit-Autoregressive Videogenerierung

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

Diskrete Diffusions-VLA: Einbringen diskreter Diffusion in die Aktionstdekodierung von visuell-sprachlich-handelnden Politiken

Diffusionsmodell

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

Selbstbelohnender visuell-sprachlicher Modellierungsansatz durch Reasoning-Dekomposition

Visuelle Fragebeantwortung

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

VA-MoE: Variables-Adaptive Mixture of Experts für inkrementelle Wettervorhersage

Wie kann eine Eingabereformulierung die Genauigkeit der Werkzeugnutzung in einer komplexen dynamischen Umgebung verbessern? Eine Studie zu $τ$ -bench

Evaluierung auf UI-Ebene von ALLaM 34B: Messung eines arabisch-zentrierten LLM mittels HUMAIN Chat

Von reaktiv zu kognitiv: gehirngestützte räumliche Intelligenz für körperhafte Agenten

Kein Label zurückgelassen: Ein vereinheitlichtes Modell zur Oberflächenfehlererkennung für alle Überwachungsregime

T2R-bench: Ein Benchmark zur Generierung von artikelbasierten Berichten aus realen industriellen Tabellen

PVPO: Vorabgeschätzte wertbasierte Politikoptimierung für agenteles Denken

Das Training eines hilfreichen und harmlosen Assistenten mit dem Verstärkungslernen aus menschlicher Rückmeldung

UQ: Beurteilung von Sprachmodellen auf ungelösten Fragen

CARJAN: agentenbasierte Generierung und Simulation von Verkehrszenarien mit AJAN

TiKMiX: Datenbeeinflussung in dynamische Mischung für die Sprachmodell-Vortrainierung einbeziehen

TalkVid: Ein großskaliges und vielfältiges Datensatz für audiogetriebene Synthese von sprechenden Köpfen

Droplet3D: Alltagswissen aus Videos unterstützt die 3D-Generierung

A.S.E.: Ein benchmark auf Repository-Ebene zur Bewertung der Sicherheit in künstlich generiertem Code

EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

R-4B: Anreizung einer allgemeinen Auto-Denkfähigkeit in MLLMs durch zweistufige Annealing- und Verstärkungslernverfahren

Anfachen kreativen Schreibens in kleinen Sprachmodellen: LLM-as-a-Judge im Vergleich zu mehragentenbasierten verfeinerten Belohnungen

TMUAD: Verbesserung logischer Fähigkeiten in einheitlichen Anomalieerkennungsmodellen mit einem Text-Speicherbank

Analyse der Denkketten-Dynamik: Aktive Steuerung oder untreue nachträgliche Rationalisierung?

AWorld: Die Koordination des Trainingsrezepts für agente AI

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

rStar2-Agent: Technischer Bericht zur agentenbasierten Schlussfolgerung

Pref-GRPO: Paarweiser Präferenz-Reward-basierter GRPO für stabiles Text-zu-Bild-Reinforcement-Learning

MobileCLIP2: Verbesserung des multimodalen verstärkten Trainings

KI-KI-Ästhetische Zusammenarbeit mit expliziter semiotischer Bewusstheit und emergenter Grammatikentwicklung

In das Herz blicken: Ein Multiview-Video-Datensatz für die rPPG- und Gesundheitsbiomarker-Schätzung

Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung

MIDAS: Multimodale interaktive digitale Mensch-Synthese durch Echtzeit-Autoregressive Videogenerierung

Diskrete Diffusions-VLA: Einbringen diskreter Diffusion in die Aktionstdekodierung von visuell-sprachlich-handelnden Politiken

Selbstbelohnender visuell-sprachlicher Modellierungsansatz durch Reasoning-Dekomposition

VA-MoE: Variables-Adaptive Mixture of Experts für inkrementelle Wettervorhersage

Wie kann eine Eingabereformulierung die Genauigkeit der Werkzeugnutzung in einer komplexen dynamischen Umgebung verbessern? Eine Studie zu $τ$ -bench

Evaluierung auf UI-Ebene von ALLaM 34B: Messung eines arabisch-zentrierten LLM mittels HUMAIN Chat

Von reaktiv zu kognitiv: gehirngestützte räumliche Intelligenz für körperhafte Agenten

Kein Label zurückgelassen: Ein vereinheitlichtes Modell zur Oberflächenfehlererkennung für alle Überwachungsregime

T2R-bench: Ein Benchmark zur Generierung von artikelbasierten Berichten aus realen industriellen Tabellen

PVPO: Vorabgeschätzte wertbasierte Politikoptimierung für agenteles Denken

Das Training eines hilfreichen und harmlosen Assistenten mit dem Verstärkungslernen aus menschlicher Rückmeldung

UQ: Beurteilung von Sprachmodellen auf ungelösten Fragen

CARJAN: agentenbasierte Generierung und Simulation von Verkehrszenarien mit AJAN

TiKMiX: Datenbeeinflussung in dynamische Mischung für die Sprachmodell-Vortrainierung einbeziehen

TalkVid: Ein großskaliges und vielfältiges Datensatz für audiogetriebene Synthese von sprechenden Köpfen

Droplet3D: Alltagswissen aus Videos unterstützt die 3D-Generierung

A.S.E.: Ein benchmark auf Repository-Ebene zur Bewertung der Sicherheit in künstlich generiertem Code

EmbodiedOneVision: Durchmischtes Vortrainieren von Vision-Text-Action für allgemeine Robotersteuerung

R-4B: Anreizung einer allgemeinen Auto-Denkfähigkeit in MLLMs durch zweistufige Annealing- und Verstärkungslernverfahren

Anfachen kreativen Schreibens in kleinen Sprachmodellen: LLM-as-a-Judge im Vergleich zu mehragentenbasierten verfeinerten Belohnungen

TMUAD: Verbesserung logischer Fähigkeiten in einheitlichen Anomalieerkennungsmodellen mit einem Text-Speicherbank

Analyse der Denkketten-Dynamik: Aktive Steuerung oder untreue nachträgliche Rationalisierung?

AWorld: Die Koordination des Trainingsrezepts für agente AI

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

rStar2-Agent: Technischer Bericht zur agentenbasierten Schlussfolgerung

Pref-GRPO: Paarweiser Präferenz-Reward-basierter GRPO für stabiles Text-zu-Bild-Reinforcement-Learning

MobileCLIP2: Verbesserung des multimodalen verstärkten Trainings

KI-KI-Ästhetische Zusammenarbeit mit expliziter semiotischer Bewusstheit und emergenter Grammatikentwicklung

In das Herz blicken: Ein Multiview-Video-Datensatz für die rPPG- und Gesundheitsbiomarker-Schätzung

Die Vorhersage der Reihenfolge kommender Tokens verbessert die Sprachmodellierung

MIDAS: Multimodale interaktive digitale Mensch-Synthese durch Echtzeit-Autoregressive Videogenerierung

Diskrete Diffusions-VLA: Einbringen diskreter Diffusion in die Aktionstdekodierung von visuell-sprachlich-handelnden Politiken

Selbstbelohnender visuell-sprachlicher Modellierungsansatz durch Reasoning-Dekomposition