HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Tstars-Tryon 1.0: Robustes und realistisches virtuelles Anprobieren für vielfältige Modeartikel

Tstars-Tryon 1.0: Robustes und realistisches virtuelles Anprobieren für vielfältige Modeartikel

Bildgenerierung

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

Schnelle NF4-Dequantization-Kernels für die Large Language Model Inferenz

Schnelle NF4-Dequantization-Kernels für die Large Language Model Inferenz

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

EasyVideoR1: Einfacheres RL für das Video-Verständnis

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

MultiWorld: Skalierbare Multi-Agent Multi-View Video World Models

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

OpenGame: Offenes agentic Coding für Spiele

Codegenerierung

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent-World: Skalierung der Synthese realweltlicher Umgebungen für eine sich entwickelnde allgemeine Agent Intelligence

Guanting Dong, Junting Lu, Junjie Huang, et al.

OneVL: Einstufige latente Argumentation und Planung mit Vision-Language-Erklärung

Jinghui Lu, Jiayi Guan, Zhijian Huang, et al.

Erweiterung der einstufigen Bildgenerierung von Klasslabels auf Text mittels diskriminativer Textrepräsentation

Bildgenerierung

Chenxi Zhao, Chen Zhu, Xiaokun Feng, et al.

ScribblePrompt: Schnelle und flexible interaktive Segmentierung für beliebige biomedizinische Bilder

Bildsegmentierung

Medizinische Bildgebung

Halle E. Wong, Marianne Rakic, John Guttag, et al.

Long-VITA: Skalierung von Large Multi-modal Models auf 1 Million Tokens bei führender Genauigkeit in Kurzkontexten

Yunhang Shen, Chaoyou Fu, Shaoqi Dong, et al.

UI-TARS: Pionierarbeit bei der automatisierten GUI-Interaktion mit nativen Agents

Yujia Qin, Yining Ye, Junjie Fang, et al.

HunyuanVideo: Ein systematisches Framework für Large Video Generative Models

Hunyuan Foundation Model Team

MathNet: Ein globaler multimodaler Benchmark für mathematisches Reasoning und Retrieval

Retrieval-Augmented Generation

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

Externalisierung in LLM Agents: Ein einheitlicher Review zu Memory, Skills, Protocols und Harness Engineering

Chenyu Zhou, Huacan Chai, Wenteng Chen, et al.

Aktive Kontextkompression: Autonomes Memory-Management in LLM Agents

„Schneiden Sie Ihre Verluste ab! Lernen Sie das frühzeitige Pruning von Paths für effizientes paralleles Reasoning“

Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.

Qwen3.5-Omni Technischer Bericht

Web Retrieval-Aware Chunking (W-RAC) für effiziente und kostengünstige Retrieval-Augmented Generation Systeme

Retrieval-Augmented Generation

Uday Allu, Sonu Kedia, Tanmay Odapally, et al.

PersonaVLM: Langfristige personalisierte Multimodale LLMs

Chang Nie, Chaoyou Fu, Yifan Zhang, et al.

Ohne Daten oder Optimierung maximaler Gehirnschaden: Störung von Neural Networks durch Sign-Bit Flips

Ido Galil, Moshe Kimhi, Ran El-Yaniv

Aufklärung des SNR-t Bias von Diffusion Probabilistic Models

Diffusionsmodell

Bildgenerierung

Meng Yu, Lei Sun, Jianhao Zeng, et al.

Multimodales OCR: Parse Anything aus Dokumenten

Dokumentenverstehen

Handong Zheng, Yumeng Li, Kaile Zhang, et al.

Granite-speech: Open-Source Speech-aware LLMs mit starken englischen ASR-Fähigkeiten

Audio- Und Sprachverarbeitung

George Saon, Avihu Dekel, Alexander Brooks, et al.

Fish-Speech: Nutzung von Large Language Models für fortschrittliche multilinguale Text-to-Speech-Synthese

Shijia Liao, Yuxuan Wang, Tianyu Li, et al.

Löschung von Videoobjekten und Interaktionen

Saman Motamed, William Harvey, Benjamin Klein, et al.

VoxCPM: Tokenizer-freies TTS zur kontextbewussten Spracherzeugung und lebensnahen Voice Cloning

Diffusionsmodell

OmniVoice: Auf dem Weg zu omnilingualem Zero-Shot Text-to-Speech mittels Diffusion Language Models

Diffusionsmodell

Han Zhu, Lingxuan Ye, Wei Kang, et al.

Wo Vision zu Text wird: Lokalisierung des OCR-Routing-Bottlenecks in Vision-Language Models

Jonathan Steinberg, Oren Gal

OCR oder nicht? Überdenken der Informationsextraktion aus Dokumenten im Zeitalter von MLLMs unter Verwendung von groß angelegten Datensätzen aus der realen Welt

Dokumentenverstehen

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.

dnaHNet: Ein skalierbares und hierarchisches Foundation Model für das Lernen genomischer Sequenzen

Arnav Shah, Junzhe Li, Parsa Idehpour, et al.

Neuronale Computer

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.

ASGuard: Activation-Scaling Guard zur Abmilderung gezielter Jailbreaking Attacks

Überwachtes Feinabstimmen

Yein Park, Jungwoo Park, Jaewoo Kang

Tstars-Tryon 1.0: Robustes und realistisches virtuelles Anprobieren für vielfältige Modeartikel

Tstars-Tryon 1.0: Robustes und realistisches virtuelles Anprobieren für vielfältige Modeartikel

Bildgenerierung

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

Schnelle NF4-Dequantization-Kernels für die Large Language Model Inferenz

Schnelle NF4-Dequantization-Kernels für die Large Language Model Inferenz

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

EasyVideoR1: Einfacheres RL für das Video-Verständnis

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

MultiWorld: Skalierbare Multi-Agent Multi-View Video World Models

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

OpenGame: Offenes agentic Coding für Spiele

Codegenerierung

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent-World: Skalierung der Synthese realweltlicher Umgebungen für eine sich entwickelnde allgemeine Agent Intelligence

Guanting Dong, Junting Lu, Junjie Huang, et al.

OneVL: Einstufige latente Argumentation und Planung mit Vision-Language-Erklärung

Jinghui Lu, Jiayi Guan, Zhijian Huang, et al.

Erweiterung der einstufigen Bildgenerierung von Klasslabels auf Text mittels diskriminativer Textrepräsentation

Bildgenerierung

Chenxi Zhao, Chen Zhu, Xiaokun Feng, et al.

ScribblePrompt: Schnelle und flexible interaktive Segmentierung für beliebige biomedizinische Bilder

Bildsegmentierung

Medizinische Bildgebung

Halle E. Wong, Marianne Rakic, John Guttag, et al.

Long-VITA: Skalierung von Large Multi-modal Models auf 1 Million Tokens bei führender Genauigkeit in Kurzkontexten

Yunhang Shen, Chaoyou Fu, Shaoqi Dong, et al.

UI-TARS: Pionierarbeit bei der automatisierten GUI-Interaktion mit nativen Agents

Yujia Qin, Yining Ye, Junjie Fang, et al.

HunyuanVideo: Ein systematisches Framework für Large Video Generative Models

Hunyuan Foundation Model Team

MathNet: Ein globaler multimodaler Benchmark für mathematisches Reasoning und Retrieval

Retrieval-Augmented Generation

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

Externalisierung in LLM Agents: Ein einheitlicher Review zu Memory, Skills, Protocols und Harness Engineering

Chenyu Zhou, Huacan Chai, Wenteng Chen, et al.

Aktive Kontextkompression: Autonomes Memory-Management in LLM Agents

„Schneiden Sie Ihre Verluste ab! Lernen Sie das frühzeitige Pruning von Paths für effizientes paralleles Reasoning“

Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.

Qwen3.5-Omni Technischer Bericht

Web Retrieval-Aware Chunking (W-RAC) für effiziente und kostengünstige Retrieval-Augmented Generation Systeme

Retrieval-Augmented Generation

Uday Allu, Sonu Kedia, Tanmay Odapally, et al.

PersonaVLM: Langfristige personalisierte Multimodale LLMs

Chang Nie, Chaoyou Fu, Yifan Zhang, et al.

Ohne Daten oder Optimierung maximaler Gehirnschaden: Störung von Neural Networks durch Sign-Bit Flips

Ido Galil, Moshe Kimhi, Ran El-Yaniv

Aufklärung des SNR-t Bias von Diffusion Probabilistic Models

Diffusionsmodell

Bildgenerierung

Meng Yu, Lei Sun, Jianhao Zeng, et al.

Multimodales OCR: Parse Anything aus Dokumenten

Dokumentenverstehen

Handong Zheng, Yumeng Li, Kaile Zhang, et al.

Granite-speech: Open-Source Speech-aware LLMs mit starken englischen ASR-Fähigkeiten

Audio- Und Sprachverarbeitung

George Saon, Avihu Dekel, Alexander Brooks, et al.

Fish-Speech: Nutzung von Large Language Models für fortschrittliche multilinguale Text-to-Speech-Synthese

Shijia Liao, Yuxuan Wang, Tianyu Li, et al.

Löschung von Videoobjekten und Interaktionen

Saman Motamed, William Harvey, Benjamin Klein, et al.

VoxCPM: Tokenizer-freies TTS zur kontextbewussten Spracherzeugung und lebensnahen Voice Cloning

Diffusionsmodell

OmniVoice: Auf dem Weg zu omnilingualem Zero-Shot Text-to-Speech mittels Diffusion Language Models

Diffusionsmodell

Han Zhu, Lingxuan Ye, Wei Kang, et al.

Wo Vision zu Text wird: Lokalisierung des OCR-Routing-Bottlenecks in Vision-Language Models

Jonathan Steinberg, Oren Gal

OCR oder nicht? Überdenken der Informationsextraktion aus Dokumenten im Zeitalter von MLLMs unter Verwendung von groß angelegten Datensätzen aus der realen Welt

Dokumentenverstehen

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.

dnaHNet: Ein skalierbares und hierarchisches Foundation Model für das Lernen genomischer Sequenzen

Arnav Shah, Junzhe Li, Parsa Idehpour, et al.

Neuronale Computer

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.

ASGuard: Activation-Scaling Guard zur Abmilderung gezielter Jailbreaking Attacks

Überwachtes Feinabstimmen

Yein Park, Jungwoo Park, Jaewoo Kang

EasyVideoR1: Einfacheres RL für das Video-Verständnis

MultiWorld: Skalierbare Multi-Agent Multi-View Video World Models

OpenGame: Offenes agentic Coding für Spiele

Agent-World: Skalierung der Synthese realweltlicher Umgebungen für eine sich entwickelnde allgemeine Agent Intelligence

OneVL: Einstufige latente Argumentation und Planung mit Vision-Language-Erklärung

Erweiterung der einstufigen Bildgenerierung von Klasslabels auf Text mittels diskriminativer Textrepräsentation

ScribblePrompt: Schnelle und flexible interaktive Segmentierung für beliebige biomedizinische Bilder

Long-VITA: Skalierung von Large Multi-modal Models auf 1 Million Tokens bei führender Genauigkeit in Kurzkontexten

UI-TARS: Pionierarbeit bei der automatisierten GUI-Interaktion mit nativen Agents

HunyuanVideo: Ein systematisches Framework für Large Video Generative Models

MathNet: Ein globaler multimodaler Benchmark für mathematisches Reasoning und Retrieval

Externalisierung in LLM Agents: Ein einheitlicher Review zu Memory, Skills, Protocols und Harness Engineering

Aktive Kontextkompression: Autonomes Memory-Management in LLM Agents

„Schneiden Sie Ihre Verluste ab! Lernen Sie das frühzeitige Pruning von Paths für effizientes paralleles Reasoning“

Qwen3.5-Omni Technischer Bericht

Web Retrieval-Aware Chunking (W-RAC) für effiziente und kostengünstige Retrieval-Augmented Generation Systeme

PersonaVLM: Langfristige personalisierte Multimodale LLMs

Ohne Daten oder Optimierung maximaler Gehirnschaden: Störung von Neural Networks durch Sign-Bit Flips

Aufklärung des SNR-t Bias von Diffusion Probabilistic Models

Multimodales OCR: Parse Anything aus Dokumenten

Granite-speech: Open-Source Speech-aware LLMs mit starken englischen ASR-Fähigkeiten

Fish-Speech: Nutzung von Large Language Models für fortschrittliche multilinguale Text-to-Speech-Synthese

Löschung von Videoobjekten und Interaktionen

VoxCPM: Tokenizer-freies TTS zur kontextbewussten Spracherzeugung und lebensnahen Voice Cloning

OmniVoice: Auf dem Weg zu omnilingualem Zero-Shot Text-to-Speech mittels Diffusion Language Models

Wo Vision zu Text wird: Lokalisierung des OCR-Routing-Bottlenecks in Vision-Language Models

OCR oder nicht? Überdenken der Informationsextraktion aus Dokumenten im Zeitalter von MLLMs unter Verwendung von groß angelegten Datensätzen aus der realen Welt

dnaHNet: Ein skalierbares und hierarchisches Foundation Model für das Lernen genomischer Sequenzen

Neuronale Computer

ASGuard: Activation-Scaling Guard zur Abmilderung gezielter Jailbreaking Attacks

EasyVideoR1: Einfacheres RL für das Video-Verständnis

MultiWorld: Skalierbare Multi-Agent Multi-View Video World Models

OpenGame: Offenes agentic Coding für Spiele

Agent-World: Skalierung der Synthese realweltlicher Umgebungen für eine sich entwickelnde allgemeine Agent Intelligence

OneVL: Einstufige latente Argumentation und Planung mit Vision-Language-Erklärung

Erweiterung der einstufigen Bildgenerierung von Klasslabels auf Text mittels diskriminativer Textrepräsentation

ScribblePrompt: Schnelle und flexible interaktive Segmentierung für beliebige biomedizinische Bilder

Long-VITA: Skalierung von Large Multi-modal Models auf 1 Million Tokens bei führender Genauigkeit in Kurzkontexten

UI-TARS: Pionierarbeit bei der automatisierten GUI-Interaktion mit nativen Agents

HunyuanVideo: Ein systematisches Framework für Large Video Generative Models

MathNet: Ein globaler multimodaler Benchmark für mathematisches Reasoning und Retrieval

Externalisierung in LLM Agents: Ein einheitlicher Review zu Memory, Skills, Protocols und Harness Engineering

Aktive Kontextkompression: Autonomes Memory-Management in LLM Agents

„Schneiden Sie Ihre Verluste ab! Lernen Sie das frühzeitige Pruning von Paths für effizientes paralleles Reasoning“

Qwen3.5-Omni Technischer Bericht

Web Retrieval-Aware Chunking (W-RAC) für effiziente und kostengünstige Retrieval-Augmented Generation Systeme

PersonaVLM: Langfristige personalisierte Multimodale LLMs

Ohne Daten oder Optimierung maximaler Gehirnschaden: Störung von Neural Networks durch Sign-Bit Flips

Aufklärung des SNR-t Bias von Diffusion Probabilistic Models

Multimodales OCR: Parse Anything aus Dokumenten

Granite-speech: Open-Source Speech-aware LLMs mit starken englischen ASR-Fähigkeiten

Fish-Speech: Nutzung von Large Language Models für fortschrittliche multilinguale Text-to-Speech-Synthese

Löschung von Videoobjekten und Interaktionen

VoxCPM: Tokenizer-freies TTS zur kontextbewussten Spracherzeugung und lebensnahen Voice Cloning

OmniVoice: Auf dem Weg zu omnilingualem Zero-Shot Text-to-Speech mittels Diffusion Language Models

Wo Vision zu Text wird: Lokalisierung des OCR-Routing-Bottlenecks in Vision-Language Models

OCR oder nicht? Überdenken der Informationsextraktion aus Dokumenten im Zeitalter von MLLMs unter Verwendung von groß angelegten Datensätzen aus der realen Welt

dnaHNet: Ein skalierbares und hierarchisches Foundation Model für das Lernen genomischer Sequenzen

Neuronale Computer

ASGuard: Activation-Scaling Guard zur Abmilderung gezielter Jailbreaking Attacks