HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

EvalVerse: Pipeline-bewusstes und Expertenkalibriertes Benchmarking für professionelle filmische Video-Generierung

EvalVerse: Pipeline-bewusstes und Expertenkalibriertes Benchmarking für professionelle filmische Video-Generierung

Songlin Yang, Haobin Zhong, Ruilin Zhang, et al.

MobileGym: Eine verifizierbare und hochparallele Simulationsplattform für die Mobile-GUI-Agent-Forschung

MobileGym: Eine verifizierbare und hochparallele Simulationsplattform für die Mobile-GUI-Agent-Forschung

Verstärkendes Lernen

Dingbang Wu, Rui Hao, Haiyang Wang, et al.

SpatialBench: Ist Ihr räumliches Grundlagenmodell ein Allrounder?

Haosong Peng, Hao Li, Jiaqi Chen, et al.

LocateAnything: Schnelle und hochwertige Visions-Sprache-Verankerung mit paralleler Box-Decodierung

Objekterkennung

Shihao Wang, Shilong Liu, Yuanguo Kuang, et al.

Gemini Embedding 2: Ein nativer multimodaler Embedding-Model aus Gemini

Multimodale Darstellung

Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang, et al.

Sprachmodelle brauchen Schlaf

Sangyun Lee, Sean McLeish, Tom Goldstein, et al.

ECHO: Terminal Agents lernen Weltmodelle kostenlos

Verstärkendes Lernen

Vaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, et al.

ParaVT: Zähmung des Tool-Prior-Paradoxons für paralleles Tool-Use in agenticem Video-Reinforcement-Learning

Zuhao Yang, Kaichen Zhang, Sudong Wang, et al.

TriSplat: Simulationsbereite, vorwärtsgerichtete 3D-Szenenrekonstruktion

Computer Vision

Weijie Wang, Zimu Li, Jinchuan Shi, et al.

Foundation Protocol: Eine Koordinierungsschicht für die agentic Gesellschaft

Bang Liu, Yongfeng Gu, Jiayi Zhang, et al.

WBench: Ein umfassender Multi-Turn-Benchmark zur Bewertung interaktiver Video-World-Modelle

Kaining Ying, Hengrui Hu, Siyu Ren, et al.

Macaron-A2UI: Ein Modell für generatives UI in persönlichen Agenten

Fancy Kong, Congjie Zheng, Murphy Zhuang, et al.

DVAO: Dynamische Varianz-adaptive Vorteilsoptimierung für Multi-Reinforcement-Learning

Verstärkendes Lernen

Multi-Task-Lernen

Guochao Jiang, Jingyi Song, Guofeng Quan, et al.

ViMU: Benchmarking Video Metaphorical Understanding

Emotionserkennung

Qi Li, Xinchao Wang

SMOL: Professionell übersetzte parallele Daten für 115 unterrepräsentierte Sprachen

Überwachtes Feinabstimmen

Isaac Caswell, Elizabeth Nielsen, Jiaming Luo, et al.

Chi-Bench: Können KI-Agenten end-to-End-Prozesse in der Gesundheitsversorgung mit langer Horizontdauer und hoher Politikhäufigkeit automatisieren?

Haolin Chen, Deon Metelski, Leon Qi, et al.

Kombination von On-Policy-Optimierung und Distillation für langkontextuelle Schlussfolgerungen in großen Sprachmodellen

Miguel Moura Ramos, Duarte M. Alves, André F. T. Martins

Durch den Blickwinkel des Kontrasts: Selbstverbessernde visuelle Schlussfolgerung in VLMs

Visuelle Fragebeantwortung

Zhiyu Pan, Yizheng Wu, Jiashen Hua, et al.

HRM-Text: Effizientes Pretraining jenseits des Skalierens

Guan Wang, Changling Liu, Chenyu Wang, et al.

Sehen, was ich meine: Ausrichten von Vision- und Sprachrepräsentationen für das feinkörnige Objektverständnis in Videos

Multimodale Darstellung

Boyuan Sun, Bowen Yin, Yuanming Li, et al.

Technischer Bericht zu StepAudio 2.5

Spracherkennung

Bin Lin, Bo Zhao, Boyong Wu, et al.

SciAtlas: Ein wissensgraph im großen Maßstab für die automatisierte wissenschaftliche Forschung

KI Für Die Wissenschaft

Shuofei Qiao, Yunxiang Wei, Jiazheng Fan, et al.

Neubewertung der cross-layer Informationsrouting in Diffusion Transformers

Diffusionsmodell

Chao Xu, Maohua Li, Qirui Li, et al.

Lens: Überdenken der Trainings-Effizienz für fundamentale Text-zu-Bild-Modelle

Diffusionsmodell

Dong Chen, Fangyun Wei, Ziyu Wan, et al.

SkillOpt: Exekutive Strategie für sich selbst entwickelnde Agenten-Fähigkeiten

Yifan Yang, Ziyang Gong, Weiquan Huang, et al.

CVEvolve: Autonome Algorithmenentwicklung für die Verarbeitung unstrukturierter wissenschaftlicher Daten

KI Für Die Wissenschaft

Bildverarbeitung

Ming Du, Xiangyu Yin, Yanqi Luo, et al.

Poly-EPO: Training explorative Modellierungsansätze

Verstärkendes Lernen

Ifdita Hasan Orney, Jubayer Ibn Hamid, Shreya S Ramanujam, et al.

Zusammenfassung

Retrieval-Augmented Generation

Ryan Wei Heng Quek, Sanghyuk Lee, Alfred Wei Lun Leong, et al.

ACC: Kompilieren von Agenten-Trajektorien für das Training mit langem Kontext

Überwachtes Feinabstimmen

Qisheng Su, Zhen Fang, Shiting Huang, et al.

Volle Aufmerksamkeit schlägt zurück: Übertragung von voller Aufmerksamkeit auf Sparse innerhalb von hundert Trainingsschritten

Yanke Zhou, Yiduo Li, Hanlin Tang, et al.

$π$-Bench: Evaluierung proaktiver persönlicher Assistenten-Agents in langfristigen Workflows

Haoran Zhang, Luxin Xu, Zhilin Wang, et al.

Wahrnehmung oder Vorurteil: Können MLLMs über erste Eindrücke der Persönlichkeit hinausgehen?

Caixin Kang, Tianyu Yan, Sitong Gong, et al.

EvalVerse: Pipeline-bewusstes und Expertenkalibriertes Benchmarking für professionelle filmische Video-Generierung

EvalVerse: Pipeline-bewusstes und Expertenkalibriertes Benchmarking für professionelle filmische Video-Generierung

Songlin Yang, Haobin Zhong, Ruilin Zhang, et al.

MobileGym: Eine verifizierbare und hochparallele Simulationsplattform für die Mobile-GUI-Agent-Forschung

MobileGym: Eine verifizierbare und hochparallele Simulationsplattform für die Mobile-GUI-Agent-Forschung

Verstärkendes Lernen

Dingbang Wu, Rui Hao, Haiyang Wang, et al.

SpatialBench: Ist Ihr räumliches Grundlagenmodell ein Allrounder?

Haosong Peng, Hao Li, Jiaqi Chen, et al.

LocateAnything: Schnelle und hochwertige Visions-Sprache-Verankerung mit paralleler Box-Decodierung

Objekterkennung

Shihao Wang, Shilong Liu, Yuanguo Kuang, et al.

Gemini Embedding 2: Ein nativer multimodaler Embedding-Model aus Gemini

Multimodale Darstellung

Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang, et al.

Sprachmodelle brauchen Schlaf

Sangyun Lee, Sean McLeish, Tom Goldstein, et al.

ECHO: Terminal Agents lernen Weltmodelle kostenlos

Verstärkendes Lernen

Vaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, et al.

ParaVT: Zähmung des Tool-Prior-Paradoxons für paralleles Tool-Use in agenticem Video-Reinforcement-Learning

Zuhao Yang, Kaichen Zhang, Sudong Wang, et al.

TriSplat: Simulationsbereite, vorwärtsgerichtete 3D-Szenenrekonstruktion

Computer Vision

Weijie Wang, Zimu Li, Jinchuan Shi, et al.

Foundation Protocol: Eine Koordinierungsschicht für die agentic Gesellschaft

Bang Liu, Yongfeng Gu, Jiayi Zhang, et al.

WBench: Ein umfassender Multi-Turn-Benchmark zur Bewertung interaktiver Video-World-Modelle

Kaining Ying, Hengrui Hu, Siyu Ren, et al.

Macaron-A2UI: Ein Modell für generatives UI in persönlichen Agenten

Fancy Kong, Congjie Zheng, Murphy Zhuang, et al.

DVAO: Dynamische Varianz-adaptive Vorteilsoptimierung für Multi-Reinforcement-Learning

Verstärkendes Lernen

Multi-Task-Lernen

Guochao Jiang, Jingyi Song, Guofeng Quan, et al.

ViMU: Benchmarking Video Metaphorical Understanding

Emotionserkennung

Qi Li, Xinchao Wang

SMOL: Professionell übersetzte parallele Daten für 115 unterrepräsentierte Sprachen

Überwachtes Feinabstimmen

Isaac Caswell, Elizabeth Nielsen, Jiaming Luo, et al.

Chi-Bench: Können KI-Agenten end-to-End-Prozesse in der Gesundheitsversorgung mit langer Horizontdauer und hoher Politikhäufigkeit automatisieren?

Haolin Chen, Deon Metelski, Leon Qi, et al.

Kombination von On-Policy-Optimierung und Distillation für langkontextuelle Schlussfolgerungen in großen Sprachmodellen

Miguel Moura Ramos, Duarte M. Alves, André F. T. Martins

Durch den Blickwinkel des Kontrasts: Selbstverbessernde visuelle Schlussfolgerung in VLMs

Visuelle Fragebeantwortung

Zhiyu Pan, Yizheng Wu, Jiashen Hua, et al.

HRM-Text: Effizientes Pretraining jenseits des Skalierens

Guan Wang, Changling Liu, Chenyu Wang, et al.

Sehen, was ich meine: Ausrichten von Vision- und Sprachrepräsentationen für das feinkörnige Objektverständnis in Videos

Multimodale Darstellung

Boyuan Sun, Bowen Yin, Yuanming Li, et al.

Technischer Bericht zu StepAudio 2.5

Spracherkennung

Bin Lin, Bo Zhao, Boyong Wu, et al.

SciAtlas: Ein wissensgraph im großen Maßstab für die automatisierte wissenschaftliche Forschung

KI Für Die Wissenschaft

Shuofei Qiao, Yunxiang Wei, Jiazheng Fan, et al.

Neubewertung der cross-layer Informationsrouting in Diffusion Transformers

Diffusionsmodell

Chao Xu, Maohua Li, Qirui Li, et al.

Lens: Überdenken der Trainings-Effizienz für fundamentale Text-zu-Bild-Modelle

Diffusionsmodell

Dong Chen, Fangyun Wei, Ziyu Wan, et al.

SkillOpt: Exekutive Strategie für sich selbst entwickelnde Agenten-Fähigkeiten

Yifan Yang, Ziyang Gong, Weiquan Huang, et al.

CVEvolve: Autonome Algorithmenentwicklung für die Verarbeitung unstrukturierter wissenschaftlicher Daten

KI Für Die Wissenschaft

Bildverarbeitung

Ming Du, Xiangyu Yin, Yanqi Luo, et al.

Poly-EPO: Training explorative Modellierungsansätze

Verstärkendes Lernen

Ifdita Hasan Orney, Jubayer Ibn Hamid, Shreya S Ramanujam, et al.

Zusammenfassung

Retrieval-Augmented Generation

Ryan Wei Heng Quek, Sanghyuk Lee, Alfred Wei Lun Leong, et al.

ACC: Kompilieren von Agenten-Trajektorien für das Training mit langem Kontext

Überwachtes Feinabstimmen

Qisheng Su, Zhen Fang, Shiting Huang, et al.

Volle Aufmerksamkeit schlägt zurück: Übertragung von voller Aufmerksamkeit auf Sparse innerhalb von hundert Trainingsschritten

Yanke Zhou, Yiduo Li, Hanlin Tang, et al.

$π$-Bench: Evaluierung proaktiver persönlicher Assistenten-Agents in langfristigen Workflows

Haoran Zhang, Luxin Xu, Zhilin Wang, et al.

Wahrnehmung oder Vorurteil: Können MLLMs über erste Eindrücke der Persönlichkeit hinausgehen?

Caixin Kang, Tianyu Yan, Sitong Gong, et al.

SpatialBench: Ist Ihr räumliches Grundlagenmodell ein Allrounder?

LocateAnything: Schnelle und hochwertige Visions-Sprache-Verankerung mit paralleler Box-Decodierung

Gemini Embedding 2: Ein nativer multimodaler Embedding-Model aus Gemini

Sprachmodelle brauchen Schlaf

ECHO: Terminal Agents lernen Weltmodelle kostenlos

ParaVT: Zähmung des Tool-Prior-Paradoxons für paralleles Tool-Use in agenticem Video-Reinforcement-Learning

TriSplat: Simulationsbereite, vorwärtsgerichtete 3D-Szenenrekonstruktion

Foundation Protocol: Eine Koordinierungsschicht für die agentic Gesellschaft

WBench: Ein umfassender Multi-Turn-Benchmark zur Bewertung interaktiver Video-World-Modelle

Macaron-A2UI: Ein Modell für generatives UI in persönlichen Agenten

DVAO: Dynamische Varianz-adaptive Vorteilsoptimierung für Multi-Reinforcement-Learning

ViMU: Benchmarking Video Metaphorical Understanding

SMOL: Professionell übersetzte parallele Daten für 115 unterrepräsentierte Sprachen

Chi-Bench: Können KI-Agenten end-to-End-Prozesse in der Gesundheitsversorgung mit langer Horizontdauer und hoher Politikhäufigkeit automatisieren?

Kombination von On-Policy-Optimierung und Distillation für langkontextuelle Schlussfolgerungen in großen Sprachmodellen

Durch den Blickwinkel des Kontrasts: Selbstverbessernde visuelle Schlussfolgerung in VLMs

HRM-Text: Effizientes Pretraining jenseits des Skalierens

Sehen, was ich meine: Ausrichten von Vision- und Sprachrepräsentationen für das feinkörnige Objektverständnis in Videos

Technischer Bericht zu StepAudio 2.5

SciAtlas: Ein wissensgraph im großen Maßstab für die automatisierte wissenschaftliche Forschung

Neubewertung der cross-layer Informationsrouting in Diffusion Transformers

Lens: Überdenken der Trainings-Effizienz für fundamentale Text-zu-Bild-Modelle

SkillOpt: Exekutive Strategie für sich selbst entwickelnde Agenten-Fähigkeiten

CVEvolve: Autonome Algorithmenentwicklung für die Verarbeitung unstrukturierter wissenschaftlicher Daten

Poly-EPO: Training explorative Modellierungsansätze

Zusammenfassung

ACC: Kompilieren von Agenten-Trajektorien für das Training mit langem Kontext

Volle Aufmerksamkeit schlägt zurück: Übertragung von voller Aufmerksamkeit auf Sparse innerhalb von hundert Trainingsschritten

$π$ -Bench: Evaluierung proaktiver persönlicher Assistenten-Agents in langfristigen Workflows

Wahrnehmung oder Vorurteil: Können MLLMs über erste Eindrücke der Persönlichkeit hinausgehen?

SpatialBench: Ist Ihr räumliches Grundlagenmodell ein Allrounder?

LocateAnything: Schnelle und hochwertige Visions-Sprache-Verankerung mit paralleler Box-Decodierung

Gemini Embedding 2: Ein nativer multimodaler Embedding-Model aus Gemini

Sprachmodelle brauchen Schlaf

ECHO: Terminal Agents lernen Weltmodelle kostenlos

ParaVT: Zähmung des Tool-Prior-Paradoxons für paralleles Tool-Use in agenticem Video-Reinforcement-Learning

TriSplat: Simulationsbereite, vorwärtsgerichtete 3D-Szenenrekonstruktion

Foundation Protocol: Eine Koordinierungsschicht für die agentic Gesellschaft

WBench: Ein umfassender Multi-Turn-Benchmark zur Bewertung interaktiver Video-World-Modelle

Macaron-A2UI: Ein Modell für generatives UI in persönlichen Agenten

DVAO: Dynamische Varianz-adaptive Vorteilsoptimierung für Multi-Reinforcement-Learning

ViMU: Benchmarking Video Metaphorical Understanding

SMOL: Professionell übersetzte parallele Daten für 115 unterrepräsentierte Sprachen

Chi-Bench: Können KI-Agenten end-to-End-Prozesse in der Gesundheitsversorgung mit langer Horizontdauer und hoher Politikhäufigkeit automatisieren?

Kombination von On-Policy-Optimierung und Distillation für langkontextuelle Schlussfolgerungen in großen Sprachmodellen

Durch den Blickwinkel des Kontrasts: Selbstverbessernde visuelle Schlussfolgerung in VLMs

HRM-Text: Effizientes Pretraining jenseits des Skalierens

Sehen, was ich meine: Ausrichten von Vision- und Sprachrepräsentationen für das feinkörnige Objektverständnis in Videos

Technischer Bericht zu StepAudio 2.5

SciAtlas: Ein wissensgraph im großen Maßstab für die automatisierte wissenschaftliche Forschung

Neubewertung der cross-layer Informationsrouting in Diffusion Transformers

Lens: Überdenken der Trainings-Effizienz für fundamentale Text-zu-Bild-Modelle

SkillOpt: Exekutive Strategie für sich selbst entwickelnde Agenten-Fähigkeiten

CVEvolve: Autonome Algorithmenentwicklung für die Verarbeitung unstrukturierter wissenschaftlicher Daten

Poly-EPO: Training explorative Modellierungsansätze

Zusammenfassung

ACC: Kompilieren von Agenten-Trajektorien für das Training mit langem Kontext

Volle Aufmerksamkeit schlägt zurück: Übertragung von voller Aufmerksamkeit auf Sparse innerhalb von hundert Trainingsschritten

$π$ -Bench: Evaluierung proaktiver persönlicher Assistenten-Agents in langfristigen Workflows

Wahrnehmung oder Vorurteil: Können MLLMs über erste Eindrücke der Persönlichkeit hinausgehen?