HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Frühe Beschleunigungsversuche in der Wissenschaft mit GPT-5

Frühe Beschleunigungsversuche in der Wissenschaft mit GPT-5

KI Für Die Wissenschaft

Sébastien Bubeck, Christian Coester, Ronen Eldan, et al.

Zu einer objektiven und systematischen Bewertung von Verzerrungen in der künstlichen Intelligenz für die medizinische Bildgebung

Zu einer objektiven und systematischen Bewertung von Verzerrungen in der künstlichen Intelligenz für die medizinische Bildgebung

Medizinische Bildgebung

Bildklassifikation

Emma A.M. Stanley, Raissa Souza, Anthony J. Winder, et al.

Was macht einen guten AI-Forschungs-Agenten aus? Eine Untersuchung zur Rolle der Ideen-Diversität

Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, et al.

Anweisungsgeleitete Läsionssegmentierung für Brust-Röntgenaufnahmen mit automatisch generiertem, großskaligem Datensatz

Semantische Segmentierung

Geon Choi, Hangyul Yoon, Hyunju Shin, et al.

VisPlay: Selbstentwickelnde Vision-Sprache-Modelle aus Bildern

Verstärkendes Lernen

Yicheng He, Chengsong Huang, Zongxia Li, et al.

Reasoning via Video: Die erste Evaluation der Reasoning-Fähigkeiten von Video-Modellen anhand von Labyrinth-Lösungsaufgaben

Multimodale Darstellung

Cheng Yang, Haiyuan Wan, Yiran Peng, et al.

VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung

Multimodale Darstellung

Yifan Jiang, Yueying Wang, Rui Zhao, et al.

Kandinsky 5.0: Eine Familie von Foundation Models für die Bild- und Videogenerierung

Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.

JAM-2: Vollständig rechnerisch gestaltetes, arzneimittelähnliches Antikörper mit hoher Erfolgsquote

KI Für Die Wissenschaft

PathMind: Ein Retrieve-Prioritize-Reason-Rahmenwerk für die Wissensgraphen-Reasoning mit großen Sprachmodellen

Retrieval-Augmented Generation

Yu Liu, Xixun Lin, Yanmin Shang, et al.

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Jiaze Li, Hao Yin, Wenhui Tan, et al.

MVI-Bench: Ein umfassender Benchmark zur Bewertung der Robustheit gegenüber irreführenden visuellen Eingaben in LVLMs

Visuelle Fragebeantwortung

Huiyi Chen, Jiawei Peng, Dehai Min, et al.

Können Welten-Simulatoren reasoning? Gen-ViRe: Eine generative visuelle Reasoning-Benchmark

Xinxin Liu, Zhaopan Xu, Kai Wang, et al.

Ein Style ist wert ein Code: Code-zu-Style-Bildgenerierung mit diskretem Style-Raum freischalten

Diffusionsmodell

Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.

AraLingBench: Ein menschlich annotiertes Benchmark zur Bewertung der arabischen sprachlichen Fähigkeiten von Large Language Models

Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.

Think-at-Hard: Selektive latente Iterationen zur Verbesserung von Reasoning-LLMs

Tianyu Fu, Yichen You, Zekai Chen, et al.

HumanSense: Von multimodaler Wahrnehmung zu empathischen, kontextbewussten Antworten durch Schlussfolgerung mit MLLMs

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

CamCloneMaster: Referenzbasierte Kamerasteuerung für die Videogenerierung ermöglichen

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

EditScore: Freigabe von Online-RL für die Bildbearbeitung durch belastbare Belohnungsmodellierung

Verstärkendes Lernen

Präferenzmodellierung

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

InteractMove: Textgesteuerte Generierung menschlicher Objektinteraktionen in 3D-Szenen mit beweglichen Objekten

Körperliche Intelligenz

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

WebCoach: Selbstentwickelnde Web-Agenten mit Richtlinien für kontinuierliches Gedächtnis über Sitzungen hinweg

Genglin Liu, Shijie Geng, Sha Li, et al.

Vertrauen lernen: Bayessche Anpassung an wechselnde Zuverlässigkeit von Vorschlaggebern bei sequenziellen Entscheidungsprozessen

Verstärkendes Lernen

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank: Ein gruppenweiser Neuordnungsansatz, getrieben durch Verstärkungslernen

Retrieval-Augmented Generation

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel: Multimodale große Diffusions-Sprachmodelle für den denkbewussten Editier- und Generierungsprozess

Diffusionsmodell

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

Part-X-MLLM: partenbewusstes 3D-multimodales Großsprachmodell

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

Uni-MoE-2.0-Omni: Skalierung sprachzentrierter omnimodaler großer Modelle mit fortgeschrittenem MoE, Training und Daten

Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.

P1: Physik-Olympiaden mit Reinforcement Learning meistern

Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.

Lancelot: Hin zu effizienten und Datenschutz-freundlichen byzantinisch-resilienten verteilten Lernverfahren innerhalb der vollständig homomorphen Verschlüsselung

Computer Vision

Neuronale Netze

Siyang Jiang, Hao Yang, Qipeng Xie, et al.

Latentes Diffusionsmodell ohne Variationalen Autoencoder

Diffusionsmodell

Bildgenerierung

Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.

RewardMap: Bewältigung spärlicher Belohnungen bei feinabgestufter visueller Schlussfolgerung mittels mehrstufiger Verstärkungslernverfahren

Visuelle Fragebeantwortung

Verstärkendes Lernen

Sicheng Feng, Kaiwen Tuo, Song Wang, et al.

ReinFlow: Feinabstimmung der Flussübereinstimmungspolitik mit Online-Verstärkungslernen

Verstärkendes Lernen

Diffusionsmodell

Tonghe Zhang, Chao Yu, Sichang Su, et al.

Frühe Beschleunigungsversuche in der Wissenschaft mit GPT-5

Frühe Beschleunigungsversuche in der Wissenschaft mit GPT-5

KI Für Die Wissenschaft

Sébastien Bubeck, Christian Coester, Ronen Eldan, et al.

Zu einer objektiven und systematischen Bewertung von Verzerrungen in der künstlichen Intelligenz für die medizinische Bildgebung

Zu einer objektiven und systematischen Bewertung von Verzerrungen in der künstlichen Intelligenz für die medizinische Bildgebung

Medizinische Bildgebung

Bildklassifikation

Emma A.M. Stanley, Raissa Souza, Anthony J. Winder, et al.

Was macht einen guten AI-Forschungs-Agenten aus? Eine Untersuchung zur Rolle der Ideen-Diversität

Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, et al.

Anweisungsgeleitete Läsionssegmentierung für Brust-Röntgenaufnahmen mit automatisch generiertem, großskaligem Datensatz

Semantische Segmentierung

Geon Choi, Hangyul Yoon, Hyunju Shin, et al.

VisPlay: Selbstentwickelnde Vision-Sprache-Modelle aus Bildern

Verstärkendes Lernen

Yicheng He, Chengsong Huang, Zongxia Li, et al.

Reasoning via Video: Die erste Evaluation der Reasoning-Fähigkeiten von Video-Modellen anhand von Labyrinth-Lösungsaufgaben

Multimodale Darstellung

Cheng Yang, Haiyuan Wan, Yiran Peng, et al.

VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung

Multimodale Darstellung

Yifan Jiang, Yueying Wang, Rui Zhao, et al.

Kandinsky 5.0: Eine Familie von Foundation Models für die Bild- und Videogenerierung

Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.

JAM-2: Vollständig rechnerisch gestaltetes, arzneimittelähnliches Antikörper mit hoher Erfolgsquote

KI Für Die Wissenschaft

PathMind: Ein Retrieve-Prioritize-Reason-Rahmenwerk für die Wissensgraphen-Reasoning mit großen Sprachmodellen

Retrieval-Augmented Generation

Yu Liu, Xixun Lin, Yanmin Shang, et al.

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

Jiaze Li, Hao Yin, Wenhui Tan, et al.

MVI-Bench: Ein umfassender Benchmark zur Bewertung der Robustheit gegenüber irreführenden visuellen Eingaben in LVLMs

Visuelle Fragebeantwortung

Huiyi Chen, Jiawei Peng, Dehai Min, et al.

Können Welten-Simulatoren reasoning? Gen-ViRe: Eine generative visuelle Reasoning-Benchmark

Xinxin Liu, Zhaopan Xu, Kai Wang, et al.

Ein Style ist wert ein Code: Code-zu-Style-Bildgenerierung mit diskretem Style-Raum freischalten

Diffusionsmodell

Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.

AraLingBench: Ein menschlich annotiertes Benchmark zur Bewertung der arabischen sprachlichen Fähigkeiten von Large Language Models

Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.

Think-at-Hard: Selektive latente Iterationen zur Verbesserung von Reasoning-LLMs

Tianyu Fu, Yichen You, Zekai Chen, et al.

HumanSense: Von multimodaler Wahrnehmung zu empathischen, kontextbewussten Antworten durch Schlussfolgerung mit MLLMs

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

CamCloneMaster: Referenzbasierte Kamerasteuerung für die Videogenerierung ermöglichen

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

EditScore: Freigabe von Online-RL für die Bildbearbeitung durch belastbare Belohnungsmodellierung

Verstärkendes Lernen

Präferenzmodellierung

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

InteractMove: Textgesteuerte Generierung menschlicher Objektinteraktionen in 3D-Szenen mit beweglichen Objekten

Körperliche Intelligenz

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

WebCoach: Selbstentwickelnde Web-Agenten mit Richtlinien für kontinuierliches Gedächtnis über Sitzungen hinweg

Genglin Liu, Shijie Geng, Sha Li, et al.

Vertrauen lernen: Bayessche Anpassung an wechselnde Zuverlässigkeit von Vorschlaggebern bei sequenziellen Entscheidungsprozessen

Verstärkendes Lernen

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank: Ein gruppenweiser Neuordnungsansatz, getrieben durch Verstärkungslernen

Retrieval-Augmented Generation

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel: Multimodale große Diffusions-Sprachmodelle für den denkbewussten Editier- und Generierungsprozess

Diffusionsmodell

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

Part-X-MLLM: partenbewusstes 3D-multimodales Großsprachmodell

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

Uni-MoE-2.0-Omni: Skalierung sprachzentrierter omnimodaler großer Modelle mit fortgeschrittenem MoE, Training und Daten

Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.

P1: Physik-Olympiaden mit Reinforcement Learning meistern

Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.

Lancelot: Hin zu effizienten und Datenschutz-freundlichen byzantinisch-resilienten verteilten Lernverfahren innerhalb der vollständig homomorphen Verschlüsselung

Computer Vision

Neuronale Netze

Siyang Jiang, Hao Yang, Qipeng Xie, et al.

Latentes Diffusionsmodell ohne Variationalen Autoencoder

Diffusionsmodell

Bildgenerierung

Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.

RewardMap: Bewältigung spärlicher Belohnungen bei feinabgestufter visueller Schlussfolgerung mittels mehrstufiger Verstärkungslernverfahren

Visuelle Fragebeantwortung

Verstärkendes Lernen

Sicheng Feng, Kaiwen Tuo, Song Wang, et al.

ReinFlow: Feinabstimmung der Flussübereinstimmungspolitik mit Online-Verstärkungslernen

Verstärkendes Lernen

Diffusionsmodell

Tonghe Zhang, Chao Yu, Sichang Su, et al.

Was macht einen guten AI-Forschungs-Agenten aus? Eine Untersuchung zur Rolle der Ideen-Diversität

Anweisungsgeleitete Läsionssegmentierung für Brust-Röntgenaufnahmen mit automatisch generiertem, großskaligem Datensatz

VisPlay: Selbstentwickelnde Vision-Sprache-Modelle aus Bildern

Reasoning via Video: Die erste Evaluation der Reasoning-Fähigkeiten von Video-Modellen anhand von Labyrinth-Lösungsaufgaben

VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung

Kandinsky 5.0: Eine Familie von Foundation Models für die Bild- und Videogenerierung

JAM-2: Vollständig rechnerisch gestaltetes, arzneimittelähnliches Antikörper mit hoher Erfolgsquote

PathMind: Ein Retrieve-Prioritize-Reason-Rahmenwerk für die Wissensgraphen-Reasoning mit großen Sprachmodellen

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

MVI-Bench: Ein umfassender Benchmark zur Bewertung der Robustheit gegenüber irreführenden visuellen Eingaben in LVLMs

Können Welten-Simulatoren reasoning? Gen-ViRe: Eine generative visuelle Reasoning-Benchmark

Ein Style ist wert ein Code: Code-zu-Style-Bildgenerierung mit diskretem Style-Raum freischalten

AraLingBench: Ein menschlich annotiertes Benchmark zur Bewertung der arabischen sprachlichen Fähigkeiten von Large Language Models

Think-at-Hard: Selektive latente Iterationen zur Verbesserung von Reasoning-LLMs

HumanSense: Von multimodaler Wahrnehmung zu empathischen, kontextbewussten Antworten durch Schlussfolgerung mit MLLMs

CamCloneMaster: Referenzbasierte Kamerasteuerung für die Videogenerierung ermöglichen

EditScore: Freigabe von Online-RL für die Bildbearbeitung durch belastbare Belohnungsmodellierung

InteractMove: Textgesteuerte Generierung menschlicher Objektinteraktionen in 3D-Szenen mit beweglichen Objekten

WebCoach: Selbstentwickelnde Web-Agenten mit Richtlinien für kontinuierliches Gedächtnis über Sitzungen hinweg

Vertrauen lernen: Bayessche Anpassung an wechselnde Zuverlässigkeit von Vorschlaggebern bei sequenziellen Entscheidungsprozessen

GroupRank: Ein gruppenweiser Neuordnungsansatz, getrieben durch Verstärkungslernen

MMaDA-Parallel: Multimodale große Diffusions-Sprachmodelle für den denkbewussten Editier- und Generierungsprozess

TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

Part-X-MLLM: partenbewusstes 3D-multimodales Großsprachmodell

Uni-MoE-2.0-Omni: Skalierung sprachzentrierter omnimodaler großer Modelle mit fortgeschrittenem MoE, Training und Daten

P1: Physik-Olympiaden mit Reinforcement Learning meistern

Lancelot: Hin zu effizienten und Datenschutz-freundlichen byzantinisch-resilienten verteilten Lernverfahren innerhalb der vollständig homomorphen Verschlüsselung

Latentes Diffusionsmodell ohne Variationalen Autoencoder

RewardMap: Bewältigung spärlicher Belohnungen bei feinabgestufter visueller Schlussfolgerung mittels mehrstufiger Verstärkungslernverfahren

ReinFlow: Feinabstimmung der Flussübereinstimmungspolitik mit Online-Verstärkungslernen

Was macht einen guten AI-Forschungs-Agenten aus? Eine Untersuchung zur Rolle der Ideen-Diversität

Anweisungsgeleitete Läsionssegmentierung für Brust-Röntgenaufnahmen mit automatisch generiertem, großskaligem Datensatz

VisPlay: Selbstentwickelnde Vision-Sprache-Modelle aus Bildern

Reasoning via Video: Die erste Evaluation der Reasoning-Fähigkeiten von Video-Modellen anhand von Labyrinth-Lösungsaufgaben

VIDEOP2R: Videoverstehen von Wahrnehmung bis Schlussfolgerung

Kandinsky 5.0: Eine Familie von Foundation Models für die Bild- und Videogenerierung

JAM-2: Vollständig rechnerisch gestaltetes, arzneimittelähnliches Antikörper mit hoher Erfolgsquote

PathMind: Ein Retrieve-Prioritize-Reason-Rahmenwerk für die Wissensgraphen-Reasoning mit großen Sprachmodellen

REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

MVI-Bench: Ein umfassender Benchmark zur Bewertung der Robustheit gegenüber irreführenden visuellen Eingaben in LVLMs

Können Welten-Simulatoren reasoning? Gen-ViRe: Eine generative visuelle Reasoning-Benchmark

Ein Style ist wert ein Code: Code-zu-Style-Bildgenerierung mit diskretem Style-Raum freischalten

AraLingBench: Ein menschlich annotiertes Benchmark zur Bewertung der arabischen sprachlichen Fähigkeiten von Large Language Models

Think-at-Hard: Selektive latente Iterationen zur Verbesserung von Reasoning-LLMs

HumanSense: Von multimodaler Wahrnehmung zu empathischen, kontextbewussten Antworten durch Schlussfolgerung mit MLLMs

CamCloneMaster: Referenzbasierte Kamerasteuerung für die Videogenerierung ermöglichen

EditScore: Freigabe von Online-RL für die Bildbearbeitung durch belastbare Belohnungsmodellierung

InteractMove: Textgesteuerte Generierung menschlicher Objektinteraktionen in 3D-Szenen mit beweglichen Objekten

WebCoach: Selbstentwickelnde Web-Agenten mit Richtlinien für kontinuierliches Gedächtnis über Sitzungen hinweg

Vertrauen lernen: Bayessche Anpassung an wechselnde Zuverlässigkeit von Vorschlaggebern bei sequenziellen Entscheidungsprozessen

GroupRank: Ein gruppenweiser Neuordnungsansatz, getrieben durch Verstärkungslernen

MMaDA-Parallel: Multimodale große Diffusions-Sprachmodelle für den denkbewussten Editier- und Generierungsprozess

TiViBench: Benchmarking Think-in-Video Reasoning für Video-Generative Models

Part-X-MLLM: partenbewusstes 3D-multimodales Großsprachmodell

Uni-MoE-2.0-Omni: Skalierung sprachzentrierter omnimodaler großer Modelle mit fortgeschrittenem MoE, Training und Daten

P1: Physik-Olympiaden mit Reinforcement Learning meistern

Lancelot: Hin zu effizienten und Datenschutz-freundlichen byzantinisch-resilienten verteilten Lernverfahren innerhalb der vollständig homomorphen Verschlüsselung

Latentes Diffusionsmodell ohne Variationalen Autoencoder

RewardMap: Bewältigung spärlicher Belohnungen bei feinabgestufter visueller Schlussfolgerung mittels mehrstufiger Verstärkungslernverfahren

ReinFlow: Feinabstimmung der Flussübereinstimmungspolitik mit Online-Verstärkungslernen