HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HERMES++: Auf dem Weg zu einem einheitlichen Fahrweltmodell für das Verständnis und die Generierung 3D-Szenen

HERMES++: Auf dem Weg zu einem einheitlichen Fahrweltmodell für das Verständnis und die Generierung 3D-Szenen

Xin Zhou, Dingkang Liang, Xiwu Chen, et al.

OpenSearch-VL: Ein offenes Rezept für multimodale Such-Agents der neuesten Generation

OpenSearch-VL: Ein offenes Rezept für multimodale Such-Agents der neuesten Generation

Retrieval-Augmented Generation

Shuang Chen, Kaituo Feng, Hangting Chen, et al.

Technischer Bericht RLDX-1

3D-Maschinenvision

Dongyoung Kim, Huiwon Jang, Myungkyu Koo, et al.

Stream-T1: Test-Time-Scaling für das Streamen der Video-Generierung

Diffusionsmodell

Yijing Tu, Shaojin Wu, Mengqi Huang, et al.

Stream-R1: Zuverlässigkeits-Perplexität-bewusste Belohnungs-Distillation für Streaming-Video-Generierung

Bin Wu, Mengqi Huang, Shaojin Wu, et al.

Uni-OPD: Vereinheitlichung von On-Policy Distillation mit einer Dual-Perspective-Rezept

Retrieval-Augmented Generation

Wenjin Hou, Shangpin Peng, Weinong Wang, et al.

AGENTIC-IMODELS: Entwicklung agenterbasierter Interpretierbarkeitstools durch autoresearch

Chandan Singh, Yan Shuo Tan, Weijia Xu, et al.

HEAVYSKILL: Schweres Denken als interne Fähigkeit in agenticen Systemen

Jianing Wang, Linsen Guo, Zhengyu Chen, et al.

WindowsWorld: Ein prozessorientierter Benchmark für autonome GUI-Agenten in professionellen, anwendungübergreifenden Umgebungen

Jinchao Li, Yunxin Li, Chenrui Zhao, et al.

Halluzinationen untergraben das Vertrauen; Metakognition ist ein Weg nach vorn

Intelligente Fragebeantwortung

Gal Yona, Mor Geva, Yossi Matias

X2SAM: Segmentierung in Bildern und Videos

Bildsegmentierung

Hao Wang, Limeng Qiao, Chi Zhang, et al.

OpenSeeker-v2: Die Grenzen von Search Agents durch informative und hochkomplexe Trajektorien erweitern

Yuwen Du, Rui Ye, Shuo Tang, et al.

PRISM: Pre-Alignment durch Black-Box On-Policy Distillation für Multimodales Reinforcement Learning

Überwachtes Feinabstimmen

Sudong Wang, Weiquan Huang, Xiaomin Yu, et al.

ARIS: Autonomes Forschen durch adversarielle Multi-Agent-Kollaboration

Ruofeng Yang, Yongcan Li, Shuai Li

ProgramBench: Können Sprachmodelle Programme von Grund auf neu erstellen?

Codegenerierung

John Yang, Kilian Lieret, Jeffrey Ma, et al.

Effiziente beschleunigte Berechnung der Graphen-Edit-Distanz auf GPU

Gesichtserkennung

Adel Dabah, Andreas Herten

Unsicherheitsabschätzung basierend auf großen Sprachmodellen für die Bewertung von Lageindikatoren in sozialen Medien zur Krisenberichterstattung

Textgenerierung

Timothy Douglas, Roben Delos Reyes, Asanobu Kitamoto

Canonical LST: Eine protokollnahe Liquid-Staking-Lösung für Tezos

Mathias Bourgoin, Arthur Breitman, Pierrick Couderc, et al.

Trennung von Intelligenz und Ausführung: Eine Workflow-Engine für das Model Context Protocol

Abhinav Singh Parmar

Das Verständnis der Leistungsplateaus in der Text-zu-Video-Abfrage: Eine umfassende empirische und linguistische Analyse

Maria-Eirini Pegia, Dimitrios Stefanopoulos, Björn Þór Jónsson, et al.

Persistent Visual Memory: Aufrechterhaltung der Wahrnehmung für die tiefe Generierung in LVLMs

Retrieval-Augmented Generation

Siyuan Huang, Xiaoye Qu, Yafu Li, et al.

EnergAIzer: Schnelles und präzises GPU-Leistungsabschätzungs-Framework für KI-Arbeitslasten

Hochleistungsrechnen

Kyungmi Lee, Zhiye Song, Eun Kyung Lee, et al.

Nutzung von verifiziererbasierter Verstärkungslernen im Bildbearbeitungskontext

Bildgenerierung

Hanzhong Guo, Jie Wu, Jie Liu, et al.

Effizientes Training auf mehreren Consumer-GPUs mit RoundPipe

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

ExoActor: Exozentrische Video-Generierung als generalisierbare interaktive Kontrolle humanoider Roboter

Körperliche Intelligenz

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Co-Evolving Policy Distillation

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Visuelle Generierung im neuen Zeitalter: Eine Entwicklung von atomarer Abbildung zu agentenbasiertem Weltmodellieren

Bildgenerierung

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Kooperation heterogener wissenschaftlicher Fundamentalmuster

KI Für Die Wissenschaft

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Diffusionsvorlagen: Ein einheitliches Plugin-Rahmenwerk für kontrollierte Diffusion

Diffusionsmodell

Bildgenerierung

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE: Online-Tight-Kopplung der Multi-Modale-Fusion für open-vocabulary semantische SLAM in dynamischen Umgebungen

Multimodale Darstellung

3D-Maschinenvision

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym: Ein skalierbares Framework zur Entwicklung effektiver Claw-Agenten

Fei Bai, Huatong Song, Shuang Sun, et al.

Die TIDE-Wende: Architekturübergreifende Distillation für Diffusions-LLMs

Diffusionsmodell

Gongbo Zhang, Wen Wang, Ye Tian, et al.

HERMES++: Auf dem Weg zu einem einheitlichen Fahrweltmodell für das Verständnis und die Generierung 3D-Szenen

HERMES++: Auf dem Weg zu einem einheitlichen Fahrweltmodell für das Verständnis und die Generierung 3D-Szenen

Xin Zhou, Dingkang Liang, Xiwu Chen, et al.

OpenSearch-VL: Ein offenes Rezept für multimodale Such-Agents der neuesten Generation

OpenSearch-VL: Ein offenes Rezept für multimodale Such-Agents der neuesten Generation

Retrieval-Augmented Generation

Shuang Chen, Kaituo Feng, Hangting Chen, et al.

Technischer Bericht RLDX-1

3D-Maschinenvision

Dongyoung Kim, Huiwon Jang, Myungkyu Koo, et al.

Stream-T1: Test-Time-Scaling für das Streamen der Video-Generierung

Diffusionsmodell

Yijing Tu, Shaojin Wu, Mengqi Huang, et al.

Stream-R1: Zuverlässigkeits-Perplexität-bewusste Belohnungs-Distillation für Streaming-Video-Generierung

Bin Wu, Mengqi Huang, Shaojin Wu, et al.

Uni-OPD: Vereinheitlichung von On-Policy Distillation mit einer Dual-Perspective-Rezept

Retrieval-Augmented Generation

Wenjin Hou, Shangpin Peng, Weinong Wang, et al.

AGENTIC-IMODELS: Entwicklung agenterbasierter Interpretierbarkeitstools durch autoresearch

Chandan Singh, Yan Shuo Tan, Weijia Xu, et al.

HEAVYSKILL: Schweres Denken als interne Fähigkeit in agenticen Systemen

Jianing Wang, Linsen Guo, Zhengyu Chen, et al.

WindowsWorld: Ein prozessorientierter Benchmark für autonome GUI-Agenten in professionellen, anwendungübergreifenden Umgebungen

Jinchao Li, Yunxin Li, Chenrui Zhao, et al.

Halluzinationen untergraben das Vertrauen; Metakognition ist ein Weg nach vorn

Intelligente Fragebeantwortung

Gal Yona, Mor Geva, Yossi Matias

X2SAM: Segmentierung in Bildern und Videos

Bildsegmentierung

Hao Wang, Limeng Qiao, Chi Zhang, et al.

OpenSeeker-v2: Die Grenzen von Search Agents durch informative und hochkomplexe Trajektorien erweitern

Yuwen Du, Rui Ye, Shuo Tang, et al.

PRISM: Pre-Alignment durch Black-Box On-Policy Distillation für Multimodales Reinforcement Learning

Überwachtes Feinabstimmen

Sudong Wang, Weiquan Huang, Xiaomin Yu, et al.

ARIS: Autonomes Forschen durch adversarielle Multi-Agent-Kollaboration

Ruofeng Yang, Yongcan Li, Shuai Li

ProgramBench: Können Sprachmodelle Programme von Grund auf neu erstellen?

Codegenerierung

John Yang, Kilian Lieret, Jeffrey Ma, et al.

Effiziente beschleunigte Berechnung der Graphen-Edit-Distanz auf GPU

Gesichtserkennung

Adel Dabah, Andreas Herten

Unsicherheitsabschätzung basierend auf großen Sprachmodellen für die Bewertung von Lageindikatoren in sozialen Medien zur Krisenberichterstattung

Textgenerierung

Timothy Douglas, Roben Delos Reyes, Asanobu Kitamoto

Canonical LST: Eine protokollnahe Liquid-Staking-Lösung für Tezos

Mathias Bourgoin, Arthur Breitman, Pierrick Couderc, et al.

Trennung von Intelligenz und Ausführung: Eine Workflow-Engine für das Model Context Protocol

Abhinav Singh Parmar

Das Verständnis der Leistungsplateaus in der Text-zu-Video-Abfrage: Eine umfassende empirische und linguistische Analyse

Maria-Eirini Pegia, Dimitrios Stefanopoulos, Björn Þór Jónsson, et al.

Persistent Visual Memory: Aufrechterhaltung der Wahrnehmung für die tiefe Generierung in LVLMs

Retrieval-Augmented Generation

Siyuan Huang, Xiaoye Qu, Yafu Li, et al.

EnergAIzer: Schnelles und präzises GPU-Leistungsabschätzungs-Framework für KI-Arbeitslasten

Hochleistungsrechnen

Kyungmi Lee, Zhiye Song, Eun Kyung Lee, et al.

Nutzung von verifiziererbasierter Verstärkungslernen im Bildbearbeitungskontext

Bildgenerierung

Hanzhong Guo, Jie Wu, Jie Liu, et al.

Effizientes Training auf mehreren Consumer-GPUs mit RoundPipe

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

ExoActor: Exozentrische Video-Generierung als generalisierbare interaktive Kontrolle humanoider Roboter

Körperliche Intelligenz

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Co-Evolving Policy Distillation

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Visuelle Generierung im neuen Zeitalter: Eine Entwicklung von atomarer Abbildung zu agentenbasiertem Weltmodellieren

Bildgenerierung

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Kooperation heterogener wissenschaftlicher Fundamentalmuster

KI Für Die Wissenschaft

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Diffusionsvorlagen: Ein einheitliches Plugin-Rahmenwerk für kontrollierte Diffusion

Diffusionsmodell

Bildgenerierung

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE: Online-Tight-Kopplung der Multi-Modale-Fusion für open-vocabulary semantische SLAM in dynamischen Umgebungen

Multimodale Darstellung

3D-Maschinenvision

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym: Ein skalierbares Framework zur Entwicklung effektiver Claw-Agenten

Fei Bai, Huatong Song, Shuang Sun, et al.

Die TIDE-Wende: Architekturübergreifende Distillation für Diffusions-LLMs

Diffusionsmodell

Gongbo Zhang, Wen Wang, Ye Tian, et al.

Technischer Bericht RLDX-1

Stream-T1: Test-Time-Scaling für das Streamen der Video-Generierung

Stream-R1: Zuverlässigkeits-Perplexität-bewusste Belohnungs-Distillation für Streaming-Video-Generierung

Uni-OPD: Vereinheitlichung von On-Policy Distillation mit einer Dual-Perspective-Rezept

AGENTIC-IMODELS: Entwicklung agenterbasierter Interpretierbarkeitstools durch autoresearch

HEAVYSKILL: Schweres Denken als interne Fähigkeit in agenticen Systemen

WindowsWorld: Ein prozessorientierter Benchmark für autonome GUI-Agenten in professionellen, anwendungübergreifenden Umgebungen

Halluzinationen untergraben das Vertrauen; Metakognition ist ein Weg nach vorn

X2SAM: Segmentierung in Bildern und Videos

OpenSeeker-v2: Die Grenzen von Search Agents durch informative und hochkomplexe Trajektorien erweitern

PRISM: Pre-Alignment durch Black-Box On-Policy Distillation für Multimodales Reinforcement Learning

ARIS: Autonomes Forschen durch adversarielle Multi-Agent-Kollaboration

ProgramBench: Können Sprachmodelle Programme von Grund auf neu erstellen?

Effiziente beschleunigte Berechnung der Graphen-Edit-Distanz auf GPU

Unsicherheitsabschätzung basierend auf großen Sprachmodellen für die Bewertung von Lageindikatoren in sozialen Medien zur Krisenberichterstattung

Canonical LST: Eine protokollnahe Liquid-Staking-Lösung für Tezos

Trennung von Intelligenz und Ausführung: Eine Workflow-Engine für das Model Context Protocol

Das Verständnis der Leistungsplateaus in der Text-zu-Video-Abfrage: Eine umfassende empirische und linguistische Analyse

Persistent Visual Memory: Aufrechterhaltung der Wahrnehmung für die tiefe Generierung in LVLMs

EnergAIzer: Schnelles und präzises GPU-Leistungsabschätzungs-Framework für KI-Arbeitslasten

Nutzung von verifiziererbasierter Verstärkungslernen im Bildbearbeitungskontext

Effizientes Training auf mehreren Consumer-GPUs mit RoundPipe

ExoActor: Exozentrische Video-Generierung als generalisierbare interaktive Kontrolle humanoider Roboter

Co-Evolving Policy Distillation

Visuelle Generierung im neuen Zeitalter: Eine Entwicklung von atomarer Abbildung zu agentenbasiertem Weltmodellieren

Kooperation heterogener wissenschaftlicher Fundamentalmuster

Diffusionsvorlagen: Ein einheitliches Plugin-Rahmenwerk für kontrollierte Diffusion

RADIO-ViPE: Online-Tight-Kopplung der Multi-Modale-Fusion für open-vocabulary semantische SLAM in dynamischen Umgebungen

ClawGym: Ein skalierbares Framework zur Entwicklung effektiver Claw-Agenten

Die TIDE-Wende: Architekturübergreifende Distillation für Diffusions-LLMs

Technischer Bericht RLDX-1

Stream-T1: Test-Time-Scaling für das Streamen der Video-Generierung

Stream-R1: Zuverlässigkeits-Perplexität-bewusste Belohnungs-Distillation für Streaming-Video-Generierung

Uni-OPD: Vereinheitlichung von On-Policy Distillation mit einer Dual-Perspective-Rezept

AGENTIC-IMODELS: Entwicklung agenterbasierter Interpretierbarkeitstools durch autoresearch

HEAVYSKILL: Schweres Denken als interne Fähigkeit in agenticen Systemen

WindowsWorld: Ein prozessorientierter Benchmark für autonome GUI-Agenten in professionellen, anwendungübergreifenden Umgebungen

Halluzinationen untergraben das Vertrauen; Metakognition ist ein Weg nach vorn

X2SAM: Segmentierung in Bildern und Videos

OpenSeeker-v2: Die Grenzen von Search Agents durch informative und hochkomplexe Trajektorien erweitern

PRISM: Pre-Alignment durch Black-Box On-Policy Distillation für Multimodales Reinforcement Learning

ARIS: Autonomes Forschen durch adversarielle Multi-Agent-Kollaboration

ProgramBench: Können Sprachmodelle Programme von Grund auf neu erstellen?

Effiziente beschleunigte Berechnung der Graphen-Edit-Distanz auf GPU

Unsicherheitsabschätzung basierend auf großen Sprachmodellen für die Bewertung von Lageindikatoren in sozialen Medien zur Krisenberichterstattung

Canonical LST: Eine protokollnahe Liquid-Staking-Lösung für Tezos

Trennung von Intelligenz und Ausführung: Eine Workflow-Engine für das Model Context Protocol

Das Verständnis der Leistungsplateaus in der Text-zu-Video-Abfrage: Eine umfassende empirische und linguistische Analyse

Persistent Visual Memory: Aufrechterhaltung der Wahrnehmung für die tiefe Generierung in LVLMs

EnergAIzer: Schnelles und präzises GPU-Leistungsabschätzungs-Framework für KI-Arbeitslasten

Nutzung von verifiziererbasierter Verstärkungslernen im Bildbearbeitungskontext

Effizientes Training auf mehreren Consumer-GPUs mit RoundPipe

ExoActor: Exozentrische Video-Generierung als generalisierbare interaktive Kontrolle humanoider Roboter

Co-Evolving Policy Distillation

Visuelle Generierung im neuen Zeitalter: Eine Entwicklung von atomarer Abbildung zu agentenbasiertem Weltmodellieren

Kooperation heterogener wissenschaftlicher Fundamentalmuster

Diffusionsvorlagen: Ein einheitliches Plugin-Rahmenwerk für kontrollierte Diffusion

RADIO-ViPE: Online-Tight-Kopplung der Multi-Modale-Fusion für open-vocabulary semantische SLAM in dynamischen Umgebungen

ClawGym: Ein skalierbares Framework zur Entwicklung effektiver Claw-Agenten

Die TIDE-Wende: Architekturübergreifende Distillation für Diffusions-LLMs