HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Glia: Ein menschenähnliches KI-System für die automatisierte Systemgestaltung und -optimierung

Glia: Ein menschenähnliches KI-System für die automatisierte Systemgestaltung und -optimierung

Pouya Hamadanian, Pantea Karimi, Arash Nasr-Esfahany, et al.

Context Engineering 2.0: Der Kontext des Context Engineering

Context Engineering 2.0: Der Kontext des Context Engineering

Künstliche Intelligenz

Qishuo Hua, Lyumanshan Ye, Dayuan Fu, et al.

Spatial-SSRL: Verbesserung des räumlichen Verständnisses durch selbstüberwachtes Verstärkungslernen

Computer Vision

Yuhong Liu, Beichen Zhang, Yuhang Zang, et al.

Kontinuierliche autoregressive Sprachmodelle

Textgenerierung

Chenze Shao, Darren Li, Fandong Meng, et al.

$π_ exttt{RL}$: Online-RL-Finetuning für flussbasierte visuelle Sprach-Aktions-Modelle

Verstärkendes Lernen

Überwachtes Feinabstimmen

Kang Chen, Zhihao Liu, Tonghe Zhang, et al.

INT gegenüber FP: Eine umfassende Studie zu feinkörnigen Low-Bit-Quantisierungsformaten

Mengzhao Chen, Meng Wu, Hui Jin, et al.

ThinkMorph: Emergente Eigenschaften bei multimodaler abwechselnder Denkketten-Reasoning

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, et al.

OS-Sentinel: Ein Weg zu sicherheitsverbesserten mobilen GUI-Agenten durch hybride Validierung in realistischen Workflows

Qiushi Sun, Mukai Li, Zhoumianze Liu, et al.

Das Zeitalter der agierenden Organisation: Organisieren mit Sprachmodellen lernen

Zewen Chi, Li Dong, Qingxiu Dong, et al.

SPICE: Selbstspiel in Korpusumgebungen verbessert das Schlussfolgern

Verstärkendes Lernen

Bo Liu, Chuanyang Jin, Seungone Kim, et al.

Surfer 2: Die nächste Generation der plattformübergreifenden Computeranwender-Agenten

Mensch-Computer-Interaktion

Mathieu Andreux, Märt Bakler, Yanael Barbier, et al.

Untersuchung der Bedingungen für Diffusionsmodelle in der roboterbasierten Steuerung

Diffusionsmodell

Heeseong Shin, Byeongho Heo, Dongyoon Han, et al.

Kann ein Agent das Web beherrschen? Erkundung der Grenzen des ChatGPT Atlas Agents in Web-Spielen

Jingran Zhang, Ning Li, Justin Cui

Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

Kimi Team, Yu Zhang, Zongyu Lin, et al.

Emu3.5: Native Multimodale Modelle sind Welten-Lerner

Yufeng Cui, Honghao Chen, Haoge Deng, et al.

Das Ende der manuellen Decodierung: Hin zu wirklich end-to-end-Sprachmodellen

Zhichao Wang, Dongyang Ma, Xinting Huang, et al.

Mensch-AI-Komplementarität: Ein Ziel für verstärkte Aufsicht

Mensch-Computer-Interaktion

Natürliche Sprachverarbeitung

Rishub Jain, Sophie Bridgers, Lili Janzer, et al.

GPTOpt: Hin zu einer effizienten, auf LLMs basierenden schwarzen Kasten-Optimierung

Überwachtes Feinabstimmen

Jamison Meindl, Yunsheng Tian, Tony Cui, et al.

VFXMaster: Freigabe der dynamischen Generierung von visuellen Effekten durch Lernen im Kontext

Baolu Li, Yiming Zhang, Qinghe Wang, et al.

Prozessmining-basiertes reasoning-orientiertes GRPO

Verstärkendes Lernen

Taekhyun Park, Yongjae Lee, Hyerim Bae

Skalierung latenter Schlussfolgerung mittels geschlossener Sprachmodelle

Rui-Jie Zhu, Zixuan Wang, Kai Hua, et al.

ReForm: Reflektive Autoformalisierung mit prospektiver begrenzter Sequenzoptimierung

Guoxin Chen, Jing Wu, Xinjie Chen, et al.

Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen

Shijian Wang, Jiarui Jin, Xingjian Wang, et al.

JanusCoder: Ein Schritt hin zu einer grundlegenden visuell-programmatischen Schnittstelle für Code-Intelligenz

Codegenerierung

Qiushi Sun, Jingyang Gong, Yang Liu, et al.

MCP-Flow: Unterstützung von LLM-Agenten beim Meistern realweltbezogener, vielfältiger und skalierbarer MCP-Tools

Wenhao Wang, Peizhi Niu, Zhao Xu, et al.

OmniCast: Ein maskierter latenter Diffusionsmodell für Wettervorhersagen über verschiedene Zeitskalen

Diffusionsmodell

Tung Nguyen, Tuan Pham, Troy Arcomano, et al.

Gleichmäßige diskrete Diffusion mit metrischem Pfad für die Videogenerierung

Diffusionsmodell

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS: Vortrainierte Grundmodell für skalierbare, allgemeine multimodale Spielagenten

Zihao Wang, Xujing Li, Yining Ye, et al.

RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

Körperliche Intelligenz

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

AgentFold: Langfristige Web-Agenten mit proaktiver Kontextverwaltung

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

Technischer Bericht zu Tongyi DeepResearch

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

InteractComp: Bewertung von Suchagenten mit mehrdeutigen Anfragen

Mingyi Deng, Lijun Huang, Yani Fan, et al.

Glia: Ein menschenähnliches KI-System für die automatisierte Systemgestaltung und -optimierung

Glia: Ein menschenähnliches KI-System für die automatisierte Systemgestaltung und -optimierung

Pouya Hamadanian, Pantea Karimi, Arash Nasr-Esfahany, et al.

Context Engineering 2.0: Der Kontext des Context Engineering

Context Engineering 2.0: Der Kontext des Context Engineering

Künstliche Intelligenz

Qishuo Hua, Lyumanshan Ye, Dayuan Fu, et al.

Spatial-SSRL: Verbesserung des räumlichen Verständnisses durch selbstüberwachtes Verstärkungslernen

Computer Vision

Yuhong Liu, Beichen Zhang, Yuhang Zang, et al.

Kontinuierliche autoregressive Sprachmodelle

Textgenerierung

Chenze Shao, Darren Li, Fandong Meng, et al.

$π_ exttt{RL}$: Online-RL-Finetuning für flussbasierte visuelle Sprach-Aktions-Modelle

Verstärkendes Lernen

Überwachtes Feinabstimmen

Kang Chen, Zhihao Liu, Tonghe Zhang, et al.

INT gegenüber FP: Eine umfassende Studie zu feinkörnigen Low-Bit-Quantisierungsformaten

Mengzhao Chen, Meng Wu, Hui Jin, et al.

ThinkMorph: Emergente Eigenschaften bei multimodaler abwechselnder Denkketten-Reasoning

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, et al.

OS-Sentinel: Ein Weg zu sicherheitsverbesserten mobilen GUI-Agenten durch hybride Validierung in realistischen Workflows

Qiushi Sun, Mukai Li, Zhoumianze Liu, et al.

Das Zeitalter der agierenden Organisation: Organisieren mit Sprachmodellen lernen

Zewen Chi, Li Dong, Qingxiu Dong, et al.

SPICE: Selbstspiel in Korpusumgebungen verbessert das Schlussfolgern

Verstärkendes Lernen

Bo Liu, Chuanyang Jin, Seungone Kim, et al.

Surfer 2: Die nächste Generation der plattformübergreifenden Computeranwender-Agenten

Mensch-Computer-Interaktion

Mathieu Andreux, Märt Bakler, Yanael Barbier, et al.

Untersuchung der Bedingungen für Diffusionsmodelle in der roboterbasierten Steuerung

Diffusionsmodell

Heeseong Shin, Byeongho Heo, Dongyoon Han, et al.

Kann ein Agent das Web beherrschen? Erkundung der Grenzen des ChatGPT Atlas Agents in Web-Spielen

Jingran Zhang, Ning Li, Justin Cui

Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

Kimi Team, Yu Zhang, Zongyu Lin, et al.

Emu3.5: Native Multimodale Modelle sind Welten-Lerner

Yufeng Cui, Honghao Chen, Haoge Deng, et al.

Das Ende der manuellen Decodierung: Hin zu wirklich end-to-end-Sprachmodellen

Zhichao Wang, Dongyang Ma, Xinting Huang, et al.

Mensch-AI-Komplementarität: Ein Ziel für verstärkte Aufsicht

Mensch-Computer-Interaktion

Natürliche Sprachverarbeitung

Rishub Jain, Sophie Bridgers, Lili Janzer, et al.

GPTOpt: Hin zu einer effizienten, auf LLMs basierenden schwarzen Kasten-Optimierung

Überwachtes Feinabstimmen

Jamison Meindl, Yunsheng Tian, Tony Cui, et al.

VFXMaster: Freigabe der dynamischen Generierung von visuellen Effekten durch Lernen im Kontext

Baolu Li, Yiming Zhang, Qinghe Wang, et al.

Prozessmining-basiertes reasoning-orientiertes GRPO

Verstärkendes Lernen

Taekhyun Park, Yongjae Lee, Hyerim Bae

Skalierung latenter Schlussfolgerung mittels geschlossener Sprachmodelle

Rui-Jie Zhu, Zixuan Wang, Kai Hua, et al.

ReForm: Reflektive Autoformalisierung mit prospektiver begrenzter Sequenzoptimierung

Guoxin Chen, Jing Wu, Xinjie Chen, et al.

Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen

Shijian Wang, Jiarui Jin, Xingjian Wang, et al.

JanusCoder: Ein Schritt hin zu einer grundlegenden visuell-programmatischen Schnittstelle für Code-Intelligenz

Codegenerierung

Qiushi Sun, Jingyang Gong, Yang Liu, et al.

MCP-Flow: Unterstützung von LLM-Agenten beim Meistern realweltbezogener, vielfältiger und skalierbarer MCP-Tools

Wenhao Wang, Peizhi Niu, Zhao Xu, et al.

OmniCast: Ein maskierter latenter Diffusionsmodell für Wettervorhersagen über verschiedene Zeitskalen

Diffusionsmodell

Tung Nguyen, Tuan Pham, Troy Arcomano, et al.

Gleichmäßige diskrete Diffusion mit metrischem Pfad für die Videogenerierung

Diffusionsmodell

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS: Vortrainierte Grundmodell für skalierbare, allgemeine multimodale Spielagenten

Zihao Wang, Xujing Li, Yining Ye, et al.

RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

Körperliche Intelligenz

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

AgentFold: Langfristige Web-Agenten mit proaktiver Kontextverwaltung

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

Technischer Bericht zu Tongyi DeepResearch

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

InteractComp: Bewertung von Suchagenten mit mehrdeutigen Anfragen

Mingyi Deng, Lijun Huang, Yani Fan, et al.

Spatial-SSRL: Verbesserung des räumlichen Verständnisses durch selbstüberwachtes Verstärkungslernen

Kontinuierliche autoregressive Sprachmodelle

$π_ exttt{RL}$ : Online-RL-Finetuning für flussbasierte visuelle Sprach-Aktions-Modelle

INT gegenüber FP: Eine umfassende Studie zu feinkörnigen Low-Bit-Quantisierungsformaten

ThinkMorph: Emergente Eigenschaften bei multimodaler abwechselnder Denkketten-Reasoning

OS-Sentinel: Ein Weg zu sicherheitsverbesserten mobilen GUI-Agenten durch hybride Validierung in realistischen Workflows

Das Zeitalter der agierenden Organisation: Organisieren mit Sprachmodellen lernen

SPICE: Selbstspiel in Korpusumgebungen verbessert das Schlussfolgern

Surfer 2: Die nächste Generation der plattformübergreifenden Computeranwender-Agenten

Untersuchung der Bedingungen für Diffusionsmodelle in der roboterbasierten Steuerung

Kann ein Agent das Web beherrschen? Erkundung der Grenzen des ChatGPT Atlas Agents in Web-Spielen

Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

Emu3.5: Native Multimodale Modelle sind Welten-Lerner

Das Ende der manuellen Decodierung: Hin zu wirklich end-to-end-Sprachmodellen

Mensch-AI-Komplementarität: Ein Ziel für verstärkte Aufsicht

GPTOpt: Hin zu einer effizienten, auf LLMs basierenden schwarzen Kasten-Optimierung

VFXMaster: Freigabe der dynamischen Generierung von visuellen Effekten durch Lernen im Kontext

Prozessmining-basiertes reasoning-orientiertes GRPO

Skalierung latenter Schlussfolgerung mittels geschlossener Sprachmodelle

ReForm: Reflektive Autoformalisierung mit prospektiver begrenzter Sequenzoptimierung

Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen

JanusCoder: Ein Schritt hin zu einer grundlegenden visuell-programmatischen Schnittstelle für Code-Intelligenz

MCP-Flow: Unterstützung von LLM-Agenten beim Meistern realweltbezogener, vielfältiger und skalierbarer MCP-Tools

OmniCast: Ein maskierter latenter Diffusionsmodell für Wettervorhersagen über verschiedene Zeitskalen

Gleichmäßige diskrete Diffusion mit metrischem Pfad für die Videogenerierung

Game-TARS: Vortrainierte Grundmodell für skalierbare, allgemeine multimodale Spielagenten

RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

AgentFold: Langfristige Web-Agenten mit proaktiver Kontextverwaltung

Technischer Bericht zu Tongyi DeepResearch

InteractComp: Bewertung von Suchagenten mit mehrdeutigen Anfragen

Spatial-SSRL: Verbesserung des räumlichen Verständnisses durch selbstüberwachtes Verstärkungslernen

Kontinuierliche autoregressive Sprachmodelle

$π_ exttt{RL}$ : Online-RL-Finetuning für flussbasierte visuelle Sprach-Aktions-Modelle

INT gegenüber FP: Eine umfassende Studie zu feinkörnigen Low-Bit-Quantisierungsformaten

ThinkMorph: Emergente Eigenschaften bei multimodaler abwechselnder Denkketten-Reasoning

OS-Sentinel: Ein Weg zu sicherheitsverbesserten mobilen GUI-Agenten durch hybride Validierung in realistischen Workflows

Das Zeitalter der agierenden Organisation: Organisieren mit Sprachmodellen lernen

SPICE: Selbstspiel in Korpusumgebungen verbessert das Schlussfolgern

Surfer 2: Die nächste Generation der plattformübergreifenden Computeranwender-Agenten

Untersuchung der Bedingungen für Diffusionsmodelle in der roboterbasierten Steuerung

Kann ein Agent das Web beherrschen? Erkundung der Grenzen des ChatGPT Atlas Agents in Web-Spielen

Kimi Linear: Eine ausdrucksstarke und effiziente Aufmerksamkeitsarchitektur

Emu3.5: Native Multimodale Modelle sind Welten-Lerner

Das Ende der manuellen Decodierung: Hin zu wirklich end-to-end-Sprachmodellen

Mensch-AI-Komplementarität: Ein Ziel für verstärkte Aufsicht

GPTOpt: Hin zu einer effizienten, auf LLMs basierenden schwarzen Kasten-Optimierung

VFXMaster: Freigabe der dynamischen Generierung von visuellen Effekten durch Lernen im Kontext

Prozessmining-basiertes reasoning-orientiertes GRPO

Skalierung latenter Schlussfolgerung mittels geschlossener Sprachmodelle

ReForm: Reflektive Autoformalisierung mit prospektiver begrenzter Sequenzoptimierung

Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen

JanusCoder: Ein Schritt hin zu einer grundlegenden visuell-programmatischen Schnittstelle für Code-Intelligenz

MCP-Flow: Unterstützung von LLM-Agenten beim Meistern realweltbezogener, vielfältiger und skalierbarer MCP-Tools

OmniCast: Ein maskierter latenter Diffusionsmodell für Wettervorhersagen über verschiedene Zeitskalen

Gleichmäßige diskrete Diffusion mit metrischem Pfad für die Videogenerierung

Game-TARS: Vortrainierte Grundmodell für skalierbare, allgemeine multimodale Spielagenten

RoboOmni: Proaktive Roboter-Manipulation im Omni-modalen Kontext

AgentFold: Langfristige Web-Agenten mit proaktiver Kontextverwaltung

Technischer Bericht zu Tongyi DeepResearch

InteractComp: Bewertung von Suchagenten mit mehrdeutigen Anfragen