HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Skalierung von Mixture-of-Experts-Videovortraining für verkörperte Intelligenz

Skalierung von Mixture-of-Experts-Videovortraining für verkörperte Intelligenz

Shuailei Ma, Jiaqi Liao, Xinyang Wang, et al.

LAME M-VLA: DUALES LATENTES GEDÄCHTNIS IN VISION-LANGUAGE-ACTION-MODELLEN FÜR ROBOTISCHE MANIPULATION

LAME M-VLA: DUALES LATENTES GEDÄCHTNIS IN VISION-LANGUAGE-ACTION-MODELLEN FÜR ROBOTISCHE MANIPULATION

Multimodale Darstellung

Hongyu Qu, Jianzhe Gao, Xiaobin Hu, et al.

Akkurate, interdisziplinäre und transparente Struktur-Eigenschafts-Verständnis durch tiefes natives strukturelles Reasoning

KI Für Die Wissenschaft

Chen Tang, Yizhou Wang, Jianyu Wu, et al.

Parallelisierte autoregressive Dekodierung für omnimodale dichte Videountertitelung

Video Captioning

Wenzheng Zeng, Siyi Jiao, Chen Gao, et al.

Light-Omni: Reflex statt logisches Denken im agentenbasierten Videoverständnis mit Langzeitgedächtnis

Chang Nie, Jiaju Wei, Junlan Feng, et al.

Vision als vereinheitlichte multimodale Generierung

Xiaoyang Han, Jianhua Li, Kewang Deng, et al.

Hierarchische sparse Attention richtig gemacht: Auf dem Weg zur Modellierung unendlicher Kontexte

Xiang Hu, Xinyu Wei, Hao Gu, et al.

AlayaWorld: Generierung von Langzeithorizontund spielbaren Videowelten

RynnWorld-4D: 4D-verkörperte Weltmodelle für robotische Manipulation

Diffusionsmodell

Haoyu Zhao, Xingyue Zhao, Siteng Huang, et al.

Nemotron-Labs-3-Puzzle-75B-A9B: Komprimierung hybrider MoE-LLMs

Akhiad Bercovich, Talor Abramovich, Daniel Afrimi, et al.

Multi-Turn On-Policy Destillation mit Präfix-Wiederholung

Verstärkendes Lernen

Baohao Liao, Hanze Dong, Christof Monz, et al.

Gemma 4 Technischer Bericht

Sherif El Abd, Vaibhav Aggarwal, Robin Algayres, et al.

UI-MOPD: Multi-Plattform On-Policy Destillation für kontinuierliches Lernen von GUI-Agenten

Niu Lian, Alan Chen, Zhehao Yu, et al.

Wan-Streamer v0.2: Höhere Auflösung, gleiche Latenz

Lianghua Huang, Zhi-Fan Wu, Yupeng Shi, et al.

EVA-Client: Ein einheitliches Framework für Deployment, Evaluation und Datenerfassung auf realen Robotern

Heqing Yang, Yang Yi, Liyao Wang, et al.

GigaWorld-1: Ein Fahrplan zur Entwicklung von Weltmodellen für die Bewertung von Roboterrichtlinien

Angyuan Ma, Boyuan Wang, Bohan Li, et al.

ResearchStudio-Idea: Eine evidenzbasierte Forschungsideen-Fähigkeitssuite aus ML-Konferenzergebnissen

Retrieval-Augmented Generation

Qihao Zhao, Yangyu Huang, Yalun Dai, et al.

ResearchStudio-Reel: Automatisierung der letzten Meile der Forschung vom Paper zu Poster, Video und Blog

Dokumentenverstehen

Textgenerierung

Lingao Xiao, Yalun Dai, Yangyu Huang, et al.

FINAL Bench: Messung funktionalen metakognitiven Schließens in großen Sprachmodellen

Taebong Kim, Minsik Kim, Sunyoung Choi, et al.

SceneFun3D: Fein granulare Funktionalitätsund Affordanzverständnis in 3D-Szenen

3D-Maschinenvision

Semantische Segmentierung

TheoremGraph: Überbrückung formaler und informeller Mathematik

Retrieval-Augmented Generation

Simon Kurgan, Evan Wang, Eric Leonen, et al.

Always-On-Agenten: Ein Überblick über persistenten Speicher, Zustand und Governance in LLM-Agenten

Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, et al.

Absicherung des KI-Agenten: Ein einheitliches Rahmenwerk für mehrschichtiges Agenten-Red-Teaming

Yong Yang, Xing Zheng, Huiyu Wu, et al.

DataComp-VLM: Verbesserte offene Datensätze für Vision-Language-Modelle

Matteo Farina, Vishaal Udandarao, Thao Nguyen, et al.

OrbitQuant: Datenunabhängige Quantisierung für Bildund Video-Diffusion-Transformer

Diffusionsmodell

Bildgenerierung

Donghyun Lee, Jitesh Chavan, Duy Nguyen, et al.

VLA-Corrector: Leichtgewichtige Erkennungs-und-Korrektur-Inferenz für adaptiven Aktionshorizont

Verstärkendes Lernen

Yi Pan, Miao Pan, Qi Lu, et al.

Embodied.cpp: Eine portable Inferenzlaufzeitumgebung für Embodied-AI-Modelle auf heterogenen Robotern

Körperliche Intelligenz

Ling Xu, Chuyu Han, Borui Li, et al.

Die Fata Morgana der Optimierung von Trainingspolicies: Monotone Inferenz-Policies als das eigentliche Ziel für das bestärkende Lernen von LLMs

Überwachtes Feinabstimmen

Jing Liang, Hongyao Tang, Yi Ma, et al.

GeneBench-Pro: Evaluierung mehrstufigen statistischen Denkens in Genomik, quantitativer Biologie und translationaler Biomedizin

KI Für Die Wissenschaft

Jeremy Li, Andrew Ho

Positionspapier: KI/ML-Deepfake-Forschung ist nicht auf KI-generierte nicht-einvernehmliche intime Bildinhalte (AIG-NCII) ausgerichtet

Bildgenerierung

Li Qiwei, Wells Lucas Santo, Sarita Schoenebeck, et al.

Grokking verstehen: Nachweisbares Grokking in der Ridge-Regression

Mingyue Xu, Gal Vardi, Itay Safran

Eine Perspektive der Zufallsmatrizentheorie auf die Konsistenz von Diffusionsmodellen

Diffusionsmodell

Binxu Wang, Jacob Zavatone-Veth, Cengiz Pehlevan

Skalierung von Mixture-of-Experts-Videovortraining für verkörperte Intelligenz

Skalierung von Mixture-of-Experts-Videovortraining für verkörperte Intelligenz

Shuailei Ma, Jiaqi Liao, Xinyang Wang, et al.

LAME M-VLA: DUALES LATENTES GEDÄCHTNIS IN VISION-LANGUAGE-ACTION-MODELLEN FÜR ROBOTISCHE MANIPULATION

LAME M-VLA: DUALES LATENTES GEDÄCHTNIS IN VISION-LANGUAGE-ACTION-MODELLEN FÜR ROBOTISCHE MANIPULATION

Multimodale Darstellung

Hongyu Qu, Jianzhe Gao, Xiaobin Hu, et al.

Akkurate, interdisziplinäre und transparente Struktur-Eigenschafts-Verständnis durch tiefes natives strukturelles Reasoning

KI Für Die Wissenschaft

Chen Tang, Yizhou Wang, Jianyu Wu, et al.

Parallelisierte autoregressive Dekodierung für omnimodale dichte Videountertitelung

Video Captioning

Wenzheng Zeng, Siyi Jiao, Chen Gao, et al.

Light-Omni: Reflex statt logisches Denken im agentenbasierten Videoverständnis mit Langzeitgedächtnis

Chang Nie, Jiaju Wei, Junlan Feng, et al.

Vision als vereinheitlichte multimodale Generierung

Xiaoyang Han, Jianhua Li, Kewang Deng, et al.

Hierarchische sparse Attention richtig gemacht: Auf dem Weg zur Modellierung unendlicher Kontexte

Xiang Hu, Xinyu Wei, Hao Gu, et al.

AlayaWorld: Generierung von Langzeithorizontund spielbaren Videowelten

RynnWorld-4D: 4D-verkörperte Weltmodelle für robotische Manipulation

Diffusionsmodell

Haoyu Zhao, Xingyue Zhao, Siteng Huang, et al.

Nemotron-Labs-3-Puzzle-75B-A9B: Komprimierung hybrider MoE-LLMs

Akhiad Bercovich, Talor Abramovich, Daniel Afrimi, et al.

Multi-Turn On-Policy Destillation mit Präfix-Wiederholung

Verstärkendes Lernen

Baohao Liao, Hanze Dong, Christof Monz, et al.

Gemma 4 Technischer Bericht

Sherif El Abd, Vaibhav Aggarwal, Robin Algayres, et al.

UI-MOPD: Multi-Plattform On-Policy Destillation für kontinuierliches Lernen von GUI-Agenten

Niu Lian, Alan Chen, Zhehao Yu, et al.

Wan-Streamer v0.2: Höhere Auflösung, gleiche Latenz

Lianghua Huang, Zhi-Fan Wu, Yupeng Shi, et al.

EVA-Client: Ein einheitliches Framework für Deployment, Evaluation und Datenerfassung auf realen Robotern

Heqing Yang, Yang Yi, Liyao Wang, et al.

GigaWorld-1: Ein Fahrplan zur Entwicklung von Weltmodellen für die Bewertung von Roboterrichtlinien

Angyuan Ma, Boyuan Wang, Bohan Li, et al.

ResearchStudio-Idea: Eine evidenzbasierte Forschungsideen-Fähigkeitssuite aus ML-Konferenzergebnissen

Retrieval-Augmented Generation

Qihao Zhao, Yangyu Huang, Yalun Dai, et al.

ResearchStudio-Reel: Automatisierung der letzten Meile der Forschung vom Paper zu Poster, Video und Blog

Dokumentenverstehen

Textgenerierung

Lingao Xiao, Yalun Dai, Yangyu Huang, et al.

FINAL Bench: Messung funktionalen metakognitiven Schließens in großen Sprachmodellen

Taebong Kim, Minsik Kim, Sunyoung Choi, et al.

SceneFun3D: Fein granulare Funktionalitätsund Affordanzverständnis in 3D-Szenen

3D-Maschinenvision

Semantische Segmentierung

TheoremGraph: Überbrückung formaler und informeller Mathematik

Retrieval-Augmented Generation

Simon Kurgan, Evan Wang, Eric Leonen, et al.

Always-On-Agenten: Ein Überblick über persistenten Speicher, Zustand und Governance in LLM-Agenten

Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, et al.

Absicherung des KI-Agenten: Ein einheitliches Rahmenwerk für mehrschichtiges Agenten-Red-Teaming

Yong Yang, Xing Zheng, Huiyu Wu, et al.

DataComp-VLM: Verbesserte offene Datensätze für Vision-Language-Modelle

Matteo Farina, Vishaal Udandarao, Thao Nguyen, et al.

OrbitQuant: Datenunabhängige Quantisierung für Bildund Video-Diffusion-Transformer

Diffusionsmodell

Bildgenerierung

Donghyun Lee, Jitesh Chavan, Duy Nguyen, et al.

VLA-Corrector: Leichtgewichtige Erkennungs-und-Korrektur-Inferenz für adaptiven Aktionshorizont

Verstärkendes Lernen

Yi Pan, Miao Pan, Qi Lu, et al.

Embodied.cpp: Eine portable Inferenzlaufzeitumgebung für Embodied-AI-Modelle auf heterogenen Robotern

Körperliche Intelligenz

Ling Xu, Chuyu Han, Borui Li, et al.

Die Fata Morgana der Optimierung von Trainingspolicies: Monotone Inferenz-Policies als das eigentliche Ziel für das bestärkende Lernen von LLMs

Überwachtes Feinabstimmen

Jing Liang, Hongyao Tang, Yi Ma, et al.

GeneBench-Pro: Evaluierung mehrstufigen statistischen Denkens in Genomik, quantitativer Biologie und translationaler Biomedizin

KI Für Die Wissenschaft

Jeremy Li, Andrew Ho

Positionspapier: KI/ML-Deepfake-Forschung ist nicht auf KI-generierte nicht-einvernehmliche intime Bildinhalte (AIG-NCII) ausgerichtet

Bildgenerierung

Li Qiwei, Wells Lucas Santo, Sarita Schoenebeck, et al.

Grokking verstehen: Nachweisbares Grokking in der Ridge-Regression

Mingyue Xu, Gal Vardi, Itay Safran

Eine Perspektive der Zufallsmatrizentheorie auf die Konsistenz von Diffusionsmodellen

Diffusionsmodell

Binxu Wang, Jacob Zavatone-Veth, Cengiz Pehlevan

Akkurate, interdisziplinäre und transparente Struktur-Eigenschafts-Verständnis durch tiefes natives strukturelles Reasoning

Parallelisierte autoregressive Dekodierung für omnimodale dichte Videountertitelung

Light-Omni: Reflex statt logisches Denken im agentenbasierten Videoverständnis mit Langzeitgedächtnis

Vision als vereinheitlichte multimodale Generierung

Hierarchische sparse Attention richtig gemacht: Auf dem Weg zur Modellierung unendlicher Kontexte

AlayaWorld: Generierung von Langzeithorizontund spielbaren Videowelten

RynnWorld-4D: 4D-verkörperte Weltmodelle für robotische Manipulation

Nemotron-Labs-3-Puzzle-75B-A9B: Komprimierung hybrider MoE-LLMs

Multi-Turn On-Policy Destillation mit Präfix-Wiederholung

Gemma 4 Technischer Bericht

UI-MOPD: Multi-Plattform On-Policy Destillation für kontinuierliches Lernen von GUI-Agenten

Wan-Streamer v0.2: Höhere Auflösung, gleiche Latenz

EVA-Client: Ein einheitliches Framework für Deployment, Evaluation und Datenerfassung auf realen Robotern

GigaWorld-1: Ein Fahrplan zur Entwicklung von Weltmodellen für die Bewertung von Roboterrichtlinien

ResearchStudio-Idea: Eine evidenzbasierte Forschungsideen-Fähigkeitssuite aus ML-Konferenzergebnissen

ResearchStudio-Reel: Automatisierung der letzten Meile der Forschung vom Paper zu Poster, Video und Blog

FINAL Bench: Messung funktionalen metakognitiven Schließens in großen Sprachmodellen

SceneFun3D: Fein granulare Funktionalitätsund Affordanzverständnis in 3D-Szenen

TheoremGraph: Überbrückung formaler und informeller Mathematik

Always-On-Agenten: Ein Überblick über persistenten Speicher, Zustand und Governance in LLM-Agenten

Absicherung des KI-Agenten: Ein einheitliches Rahmenwerk für mehrschichtiges Agenten-Red-Teaming

DataComp-VLM: Verbesserte offene Datensätze für Vision-Language-Modelle

OrbitQuant: Datenunabhängige Quantisierung für Bildund Video-Diffusion-Transformer

VLA-Corrector: Leichtgewichtige Erkennungs-und-Korrektur-Inferenz für adaptiven Aktionshorizont

Embodied.cpp: Eine portable Inferenzlaufzeitumgebung für Embodied-AI-Modelle auf heterogenen Robotern

Die Fata Morgana der Optimierung von Trainingspolicies: Monotone Inferenz-Policies als das eigentliche Ziel für das bestärkende Lernen von LLMs

GeneBench-Pro: Evaluierung mehrstufigen statistischen Denkens in Genomik, quantitativer Biologie und translationaler Biomedizin

Positionspapier: KI/ML-Deepfake-Forschung ist nicht auf KI-generierte nicht-einvernehmliche intime Bildinhalte (AIG-NCII) ausgerichtet

Grokking verstehen: Nachweisbares Grokking in der Ridge-Regression

Eine Perspektive der Zufallsmatrizentheorie auf die Konsistenz von Diffusionsmodellen

Akkurate, interdisziplinäre und transparente Struktur-Eigenschafts-Verständnis durch tiefes natives strukturelles Reasoning

Parallelisierte autoregressive Dekodierung für omnimodale dichte Videountertitelung

Light-Omni: Reflex statt logisches Denken im agentenbasierten Videoverständnis mit Langzeitgedächtnis

Vision als vereinheitlichte multimodale Generierung

Hierarchische sparse Attention richtig gemacht: Auf dem Weg zur Modellierung unendlicher Kontexte

AlayaWorld: Generierung von Langzeithorizontund spielbaren Videowelten

RynnWorld-4D: 4D-verkörperte Weltmodelle für robotische Manipulation

Nemotron-Labs-3-Puzzle-75B-A9B: Komprimierung hybrider MoE-LLMs

Multi-Turn On-Policy Destillation mit Präfix-Wiederholung

Gemma 4 Technischer Bericht

UI-MOPD: Multi-Plattform On-Policy Destillation für kontinuierliches Lernen von GUI-Agenten

Wan-Streamer v0.2: Höhere Auflösung, gleiche Latenz

EVA-Client: Ein einheitliches Framework für Deployment, Evaluation und Datenerfassung auf realen Robotern

GigaWorld-1: Ein Fahrplan zur Entwicklung von Weltmodellen für die Bewertung von Roboterrichtlinien

ResearchStudio-Idea: Eine evidenzbasierte Forschungsideen-Fähigkeitssuite aus ML-Konferenzergebnissen

ResearchStudio-Reel: Automatisierung der letzten Meile der Forschung vom Paper zu Poster, Video und Blog

FINAL Bench: Messung funktionalen metakognitiven Schließens in großen Sprachmodellen

SceneFun3D: Fein granulare Funktionalitätsund Affordanzverständnis in 3D-Szenen

TheoremGraph: Überbrückung formaler und informeller Mathematik

Always-On-Agenten: Ein Überblick über persistenten Speicher, Zustand und Governance in LLM-Agenten

Absicherung des KI-Agenten: Ein einheitliches Rahmenwerk für mehrschichtiges Agenten-Red-Teaming

DataComp-VLM: Verbesserte offene Datensätze für Vision-Language-Modelle

OrbitQuant: Datenunabhängige Quantisierung für Bildund Video-Diffusion-Transformer

VLA-Corrector: Leichtgewichtige Erkennungs-und-Korrektur-Inferenz für adaptiven Aktionshorizont

Embodied.cpp: Eine portable Inferenzlaufzeitumgebung für Embodied-AI-Modelle auf heterogenen Robotern

Die Fata Morgana der Optimierung von Trainingspolicies: Monotone Inferenz-Policies als das eigentliche Ziel für das bestärkende Lernen von LLMs

GeneBench-Pro: Evaluierung mehrstufigen statistischen Denkens in Genomik, quantitativer Biologie und translationaler Biomedizin

Positionspapier: KI/ML-Deepfake-Forschung ist nicht auf KI-generierte nicht-einvernehmliche intime Bildinhalte (AIG-NCII) ausgerichtet

Grokking verstehen: Nachweisbares Grokking in der Ridge-Regression

Eine Perspektive der Zufallsmatrizentheorie auf die Konsistenz von Diffusionsmodellen