HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

FashionChameleon: Auf Echtzeit- und interaktive Mensch-Kleidungs-Videobearbeitung zusteuern

FashionChameleon: Auf Echtzeit- und interaktive Mensch-Kleidungs-Videobearbeitung zusteuern

Quanjian Song, Yefeng Shen, Mengting Chen, et al.

CiteVQA: Benchmarking der Evidenzzuschreibung für vertrauenswürdige Dokumentenintelligenz

CiteVQA: Benchmarking der Evidenzzuschreibung für vertrauenswürdige Dokumentenintelligenz

Dokumentenverstehen

Visuelle Fragebeantwortung

Dongsheng Ma, Jiayu Li, Zhengren Wang, et al.

MMSkills: Auf dem Weg zu multimodalen Fähigkeiten für allgemeine visuelle Agenten

Multimodale Darstellung

Kangning Zhang, Shuai Shao, Qingyao Li, et al.

PhysBrain 1.0 Technischer Bericht

Visuelle Fragebeantwortung

Multimodale Darstellung

Shijie Lian, Bin Yu, Xiaopeng Lin, et al.

Zurück zu den Wertmodellen: Generative Kritiker für die Wertmodellierung in der Verstärkungslernmethode von LLMs

Verstärkendes Lernen

Zikang Shan, Han Zhong, Liwei Wang, et al.

NEXUS: Ein Agentenframework für die Zeitreihenvorhersage

Sarkar Snigdha Sarathi Das, Palash Goyal, Mihir Parmar, et al.

MemEye: Ein visuell-zentriertes Bewertungsframework für Multimodal-Agent-Gedächtnis

Minghao Guo, Qingyue Jiao, Zeru Shi, et al.

SANA-WM: Effizientes Weltmodellieren im Minutenbereich mit hybridem linearem Diffusions-Transformer

Diffusionsmodell

Haoyi Zhu, Haozhe Liu, Yuyang Zhao, et al.

MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen

Visuelle Fragebeantwortung

Xiyu Ren, Zhaowei Wang, Yiming Du, et al.

Selbstdistillierte agentic Verstärkungslernen

Verstärkendes Lernen

Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, et al.

Kausales Erzwingen++: Skalierbare autoregressive Diffusionsdistillation mit wenigen Schritten für die Echtzeit-Interaktive Videoerstellung

Diffusionsmodell

Min Zhao, Hongzhou Zhu, Kaiwen Zheng, et al.

Erreichen von Goldmedaillen-Niveau bei Olympiaden-Reasoning durch einfaches und einheitliches Skalieren

Yafu Li, Runzhe Zhan, Haoran Zhang, et al.

RepoZero: Können LLMs ein Code-Repository von Grund auf erzeugen?

Codegenerierung

Zhaoxi Zhang, Yiming Xu, Jiahui Liang, et al.

Qwen-Image-VAE-2.0 Technischer Bericht

Diffusionsmodell

Bildgenerierung

Zekai Zhang, Deqing Li, Kuan Cao, et al.

Vorhersage von Entscheidungen von KI-Agents aus begrenzter Interaktion durch Text-Tabellarische Modellierung

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

Training von Lang-Kontext-Vision-Language-Modellen effektiv mit Verallgemeinerung über 128K Kontext hinaus

Visuelle Fragebeantwortung

Zhaowei Wang, Lishu Luo, Haodong Duan, et al.

AnyFlow: Any-Step-Video-Diffusionsmodell mit On-Policy-Flow-Map-Distillation

Diffusionsmodell

Yuchao Gu, Guian Fang, Yuxin Jiang, et al.

MinT: Verwaltete Infrastruktur für das Training und den Betrieb von Millionen von LLMs

Mind Lab, Song Cao, Vic Cao, et al.

MulTaBench: Benchmarking multimodaler tabellarischer Lernverfahren mit Text und Bild

Multimodale Darstellung

Alan Arazi, Eilam Shapira, Shoham Grunblat, et al.

Geometrischer Kontext-Transformer für die Streaming-3D-Rekonstruktion

3D-Maschinenvision

Videobearbeitung

Lin-Zhuo Chen, Jian Gao, Yihang Chen, et al.

Nemotron-Cascade 2: Post-Training von LLMs mit Cascade RL und Multi-Domain On-Policy Distillation

Überwachtes Feinabstimmen

Zhuolin Yang, Zihan Liu, Yang Chen, et al.

Technischer Bericht zu MOSS-TTS

Audio- Und Sprachverarbeitung

SII-OpenMOSS Team

StreakMind: KI-basierte Erkennung und Analyse von Satellitenspuren in astronomischen Bildern mit automatisierter Datenbankintegration

Objekterkennung

Computer Vision

Rafael Carrillo, René Duffard, Pablo García-Martín, et al.

VibeServe: Können KI-Agenten maßgeschneiderte LLM-Bereitstellungssysteme aufbauen?

Keisuke Kamahori, Shihang Li, Simon Peter, et al.

Delta-Mem: Effizienter Online-Speicher für große Sprachmodelle

Jingdi Lei, Di Zhang, Junxian Li, et al.

MCP-Cosmos: Weltmodell-verstärkte Agenten für die Ausführung komplexer Aufgaben in MCP-Umgebungen

Giridhar Ganapavarapu, Dhaval Patel

Jenseits des Reasonings: Reinforcement Learning erschließt parametrisches Wissen in LLMs

Verstärkendes Lernen

Wanli Yang, Hongyu Zang, Junwei Zhang, et al.

Verzerrungsfreie modellbasierte Repräsentationen für stichprobeneffiziente kontinuierliche Steuerung

Verstärkendes Lernen

Jiafei Lyu, Zichuan Lin, Scott Fujimoto, et al.

Multi-Stream-LLMs: Entblocken von Sprachmodellen mit parallelen Strömen von Gedanken, Eingaben und Ausgaben

Guinan Su, Yanwu Yang, Xueyan Li, et al.

Ihr Sprachmodell ist sein eigener Kritiker: Verstärkungslernen mit Werteschätzung aus den internen Zuständen des Akteurs

Verstärkendes Lernen

Yunho Choi, Jongwon Lim, Woojin Ahn, et al.

Relit-LiVE: Beleuchtung von Videos durch gemeinsames Lernen von Umgebungs-Videos

Diffusionsmodell

Weiqing Xiao, Hong Li, Xiuyu Yang, et al.

Positive Ausrichtung: Künstliche Intelligenz für das menschliche Gedeihen

Ruben Laukkonen, Seb Krier, Chloé Bakalar, et al.

FashionChameleon: Auf Echtzeit- und interaktive Mensch-Kleidungs-Videobearbeitung zusteuern

FashionChameleon: Auf Echtzeit- und interaktive Mensch-Kleidungs-Videobearbeitung zusteuern

Quanjian Song, Yefeng Shen, Mengting Chen, et al.

CiteVQA: Benchmarking der Evidenzzuschreibung für vertrauenswürdige Dokumentenintelligenz

CiteVQA: Benchmarking der Evidenzzuschreibung für vertrauenswürdige Dokumentenintelligenz

Dokumentenverstehen

Visuelle Fragebeantwortung

Dongsheng Ma, Jiayu Li, Zhengren Wang, et al.

MMSkills: Auf dem Weg zu multimodalen Fähigkeiten für allgemeine visuelle Agenten

Multimodale Darstellung

Kangning Zhang, Shuai Shao, Qingyao Li, et al.

PhysBrain 1.0 Technischer Bericht

Visuelle Fragebeantwortung

Multimodale Darstellung

Shijie Lian, Bin Yu, Xiaopeng Lin, et al.

Zurück zu den Wertmodellen: Generative Kritiker für die Wertmodellierung in der Verstärkungslernmethode von LLMs

Verstärkendes Lernen

Zikang Shan, Han Zhong, Liwei Wang, et al.

NEXUS: Ein Agentenframework für die Zeitreihenvorhersage

Sarkar Snigdha Sarathi Das, Palash Goyal, Mihir Parmar, et al.

MemEye: Ein visuell-zentriertes Bewertungsframework für Multimodal-Agent-Gedächtnis

Minghao Guo, Qingyue Jiao, Zeru Shi, et al.

SANA-WM: Effizientes Weltmodellieren im Minutenbereich mit hybridem linearem Diffusions-Transformer

Diffusionsmodell

Haoyi Zhu, Haozhe Liu, Yuyang Zhao, et al.

MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen

Visuelle Fragebeantwortung

Xiyu Ren, Zhaowei Wang, Yiming Du, et al.

Selbstdistillierte agentic Verstärkungslernen

Verstärkendes Lernen

Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, et al.

Kausales Erzwingen++: Skalierbare autoregressive Diffusionsdistillation mit wenigen Schritten für die Echtzeit-Interaktive Videoerstellung

Diffusionsmodell

Min Zhao, Hongzhou Zhu, Kaiwen Zheng, et al.

Erreichen von Goldmedaillen-Niveau bei Olympiaden-Reasoning durch einfaches und einheitliches Skalieren

Yafu Li, Runzhe Zhan, Haoran Zhang, et al.

RepoZero: Können LLMs ein Code-Repository von Grund auf erzeugen?

Codegenerierung

Zhaoxi Zhang, Yiming Xu, Jiahui Liang, et al.

Qwen-Image-VAE-2.0 Technischer Bericht

Diffusionsmodell

Bildgenerierung

Zekai Zhang, Deqing Li, Kuan Cao, et al.

Vorhersage von Entscheidungen von KI-Agents aus begrenzter Interaktion durch Text-Tabellarische Modellierung

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

Training von Lang-Kontext-Vision-Language-Modellen effektiv mit Verallgemeinerung über 128K Kontext hinaus

Visuelle Fragebeantwortung

Zhaowei Wang, Lishu Luo, Haodong Duan, et al.

AnyFlow: Any-Step-Video-Diffusionsmodell mit On-Policy-Flow-Map-Distillation

Diffusionsmodell

Yuchao Gu, Guian Fang, Yuxin Jiang, et al.

MinT: Verwaltete Infrastruktur für das Training und den Betrieb von Millionen von LLMs

Mind Lab, Song Cao, Vic Cao, et al.

MulTaBench: Benchmarking multimodaler tabellarischer Lernverfahren mit Text und Bild

Multimodale Darstellung

Alan Arazi, Eilam Shapira, Shoham Grunblat, et al.

Geometrischer Kontext-Transformer für die Streaming-3D-Rekonstruktion

3D-Maschinenvision

Videobearbeitung

Lin-Zhuo Chen, Jian Gao, Yihang Chen, et al.

Nemotron-Cascade 2: Post-Training von LLMs mit Cascade RL und Multi-Domain On-Policy Distillation

Überwachtes Feinabstimmen

Zhuolin Yang, Zihan Liu, Yang Chen, et al.

Technischer Bericht zu MOSS-TTS

Audio- Und Sprachverarbeitung

SII-OpenMOSS Team

StreakMind: KI-basierte Erkennung und Analyse von Satellitenspuren in astronomischen Bildern mit automatisierter Datenbankintegration

Objekterkennung

Computer Vision

Rafael Carrillo, René Duffard, Pablo García-Martín, et al.

VibeServe: Können KI-Agenten maßgeschneiderte LLM-Bereitstellungssysteme aufbauen?

Keisuke Kamahori, Shihang Li, Simon Peter, et al.

Delta-Mem: Effizienter Online-Speicher für große Sprachmodelle

Jingdi Lei, Di Zhang, Junxian Li, et al.

MCP-Cosmos: Weltmodell-verstärkte Agenten für die Ausführung komplexer Aufgaben in MCP-Umgebungen

Giridhar Ganapavarapu, Dhaval Patel

Jenseits des Reasonings: Reinforcement Learning erschließt parametrisches Wissen in LLMs

Verstärkendes Lernen

Wanli Yang, Hongyu Zang, Junwei Zhang, et al.

Verzerrungsfreie modellbasierte Repräsentationen für stichprobeneffiziente kontinuierliche Steuerung

Verstärkendes Lernen

Jiafei Lyu, Zichuan Lin, Scott Fujimoto, et al.

Multi-Stream-LLMs: Entblocken von Sprachmodellen mit parallelen Strömen von Gedanken, Eingaben und Ausgaben

Guinan Su, Yanwu Yang, Xueyan Li, et al.

Ihr Sprachmodell ist sein eigener Kritiker: Verstärkungslernen mit Werteschätzung aus den internen Zuständen des Akteurs

Verstärkendes Lernen

Yunho Choi, Jongwon Lim, Woojin Ahn, et al.

Relit-LiVE: Beleuchtung von Videos durch gemeinsames Lernen von Umgebungs-Videos

Diffusionsmodell

Weiqing Xiao, Hong Li, Xiuyu Yang, et al.

Positive Ausrichtung: Künstliche Intelligenz für das menschliche Gedeihen

Ruben Laukkonen, Seb Krier, Chloé Bakalar, et al.

MMSkills: Auf dem Weg zu multimodalen Fähigkeiten für allgemeine visuelle Agenten

PhysBrain 1.0 Technischer Bericht

Zurück zu den Wertmodellen: Generative Kritiker für die Wertmodellierung in der Verstärkungslernmethode von LLMs

NEXUS: Ein Agentenframework für die Zeitreihenvorhersage

MemEye: Ein visuell-zentriertes Bewertungsframework für Multimodal-Agent-Gedächtnis

SANA-WM: Effizientes Weltmodellieren im Minutenbereich mit hybridem linearem Diffusions-Transformer

MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen

Selbstdistillierte agentic Verstärkungslernen

Kausales Erzwingen++: Skalierbare autoregressive Diffusionsdistillation mit wenigen Schritten für die Echtzeit-Interaktive Videoerstellung

Erreichen von Goldmedaillen-Niveau bei Olympiaden-Reasoning durch einfaches und einheitliches Skalieren

RepoZero: Können LLMs ein Code-Repository von Grund auf erzeugen?

Qwen-Image-VAE-2.0 Technischer Bericht

Vorhersage von Entscheidungen von KI-Agents aus begrenzter Interaktion durch Text-Tabellarische Modellierung

Training von Lang-Kontext-Vision-Language-Modellen effektiv mit Verallgemeinerung über 128K Kontext hinaus

AnyFlow: Any-Step-Video-Diffusionsmodell mit On-Policy-Flow-Map-Distillation

MinT: Verwaltete Infrastruktur für das Training und den Betrieb von Millionen von LLMs

MulTaBench: Benchmarking multimodaler tabellarischer Lernverfahren mit Text und Bild

Geometrischer Kontext-Transformer für die Streaming-3D-Rekonstruktion

Nemotron-Cascade 2: Post-Training von LLMs mit Cascade RL und Multi-Domain On-Policy Distillation

Technischer Bericht zu MOSS-TTS

StreakMind: KI-basierte Erkennung und Analyse von Satellitenspuren in astronomischen Bildern mit automatisierter Datenbankintegration

VibeServe: Können KI-Agenten maßgeschneiderte LLM-Bereitstellungssysteme aufbauen?

Delta-Mem: Effizienter Online-Speicher für große Sprachmodelle

MCP-Cosmos: Weltmodell-verstärkte Agenten für die Ausführung komplexer Aufgaben in MCP-Umgebungen

Jenseits des Reasonings: Reinforcement Learning erschließt parametrisches Wissen in LLMs

Verzerrungsfreie modellbasierte Repräsentationen für stichprobeneffiziente kontinuierliche Steuerung

Multi-Stream-LLMs: Entblocken von Sprachmodellen mit parallelen Strömen von Gedanken, Eingaben und Ausgaben

Ihr Sprachmodell ist sein eigener Kritiker: Verstärkungslernen mit Werteschätzung aus den internen Zuständen des Akteurs

Relit-LiVE: Beleuchtung von Videos durch gemeinsames Lernen von Umgebungs-Videos

Positive Ausrichtung: Künstliche Intelligenz für das menschliche Gedeihen

MMSkills: Auf dem Weg zu multimodalen Fähigkeiten für allgemeine visuelle Agenten

PhysBrain 1.0 Technischer Bericht

Zurück zu den Wertmodellen: Generative Kritiker für die Wertmodellierung in der Verstärkungslernmethode von LLMs

NEXUS: Ein Agentenframework für die Zeitreihenvorhersage

MemEye: Ein visuell-zentriertes Bewertungsframework für Multimodal-Agent-Gedächtnis

SANA-WM: Effizientes Weltmodellieren im Minutenbereich mit hybridem linearem Diffusions-Transformer

MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen

Selbstdistillierte agentic Verstärkungslernen

Kausales Erzwingen++: Skalierbare autoregressive Diffusionsdistillation mit wenigen Schritten für die Echtzeit-Interaktive Videoerstellung

Erreichen von Goldmedaillen-Niveau bei Olympiaden-Reasoning durch einfaches und einheitliches Skalieren

RepoZero: Können LLMs ein Code-Repository von Grund auf erzeugen?

Qwen-Image-VAE-2.0 Technischer Bericht

Vorhersage von Entscheidungen von KI-Agents aus begrenzter Interaktion durch Text-Tabellarische Modellierung

Training von Lang-Kontext-Vision-Language-Modellen effektiv mit Verallgemeinerung über 128K Kontext hinaus

AnyFlow: Any-Step-Video-Diffusionsmodell mit On-Policy-Flow-Map-Distillation

MinT: Verwaltete Infrastruktur für das Training und den Betrieb von Millionen von LLMs

MulTaBench: Benchmarking multimodaler tabellarischer Lernverfahren mit Text und Bild

Geometrischer Kontext-Transformer für die Streaming-3D-Rekonstruktion

Nemotron-Cascade 2: Post-Training von LLMs mit Cascade RL und Multi-Domain On-Policy Distillation

Technischer Bericht zu MOSS-TTS

StreakMind: KI-basierte Erkennung und Analyse von Satellitenspuren in astronomischen Bildern mit automatisierter Datenbankintegration

VibeServe: Können KI-Agenten maßgeschneiderte LLM-Bereitstellungssysteme aufbauen?

Delta-Mem: Effizienter Online-Speicher für große Sprachmodelle

MCP-Cosmos: Weltmodell-verstärkte Agenten für die Ausführung komplexer Aufgaben in MCP-Umgebungen

Jenseits des Reasonings: Reinforcement Learning erschließt parametrisches Wissen in LLMs

Verzerrungsfreie modellbasierte Repräsentationen für stichprobeneffiziente kontinuierliche Steuerung

Multi-Stream-LLMs: Entblocken von Sprachmodellen mit parallelen Strömen von Gedanken, Eingaben und Ausgaben

Ihr Sprachmodell ist sein eigener Kritiker: Verstärkungslernen mit Werteschätzung aus den internen Zuständen des Akteurs

Relit-LiVE: Beleuchtung von Videos durch gemeinsames Lernen von Umgebungs-Videos

Positive Ausrichtung: Künstliche Intelligenz für das menschliche Gedeihen