HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Generative Modelle verstehen den Raum: Freisetzung impliziter 3D-Priors für das Szenenverständnis

Generative Modelle verstehen den Raum: Freisetzung impliziter 3D-Priors für das Szenenverständnis

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

Effizientes Reasoning mit Balanced Thinking

Effizientes Reasoning mit Balanced Thinking

Yulin Li, Tengyao Tu, Li Ding, et al.

Vor dem Handeln schauen: Verbesserung der visuellen Grundrepräsentationen für Vision-Language-Action-Modelle

Multimodale Darstellung

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

Komplementäres Reinforcement Learning

Verstärkendes Lernen

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

Alignment macht Sprachmodelle normativ, nicht deskriptiv.

Präferenzmodellierung

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

MosaicMem: Hybride räumliche Speichersysteme für kontrollierbare Videoweltmodelle

Diffusionsmodell

Wei Yu, Runjia Qian, Yumeng Li, et al.

MetaClaw: Einfach sprechen – Ein Agent, der im Freien metanlernt und sich weiterentwickelt

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

Video-CoE: Verstärkung der Video-Ereignisvorhersage mittels Chain of Events

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge: Ein einheitliches Dataset-Toolkit und Modell für Zero-Shot Movie Dubbing in diversen filmischen Szenen

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

In-Context Watermarks für Large Language Models

Textgenerierung

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

WorldCam: Interaktive autoregressive 3D-Spielwelten mit Kameraposen als vereinheitlichender geometrischer Darstellung

Diffusionsmodell

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

Die Entmystifizierung von Video Reasoning

Diffusionsmodell

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

Kinema4D: Kinematische 4D-Weltmodellierung für raumzeitliche eingebettete Simulationen

Körperliche Intelligenz

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

Qianfan-OCR: Ein einheitliches End-to-End-Modell für Dokumentenintelligenz

Dokumentenverstehen

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

InCoder-32B: Ein Code-Grundmodell für industrielle Anwendungsszenarien

Codegenerierung

Jian Yang, Wei Zhang, Jiajun Wu, et al.

MiroThinker-1.7 & H1: Hin zu Heavy-Duty Research Agents durch Verifikation

MiroMind Team, S. Bai, L. Bing, et al.

HSImul3R: Physik-in-the-Loop-Rekonstruktion simulationsbereiter Mensch-Szenen-Interaktionen

3D-Maschinenvision

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

Aufmerksamkeitsresiduen

Kimi Team, Guangyu Chen, Yu Zhang, et al.

Verankierung von Welt-Simulationsmodellen in einer realen Metropole

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

OpenSeeker: Demokratisierung von Frontier Search Agents durch vollständige Open-Sourcing von Trainingsdaten

Yuwen Du, Rui Ye, Shuo Tang, et al.

Künstliche Intelligenz kann wissenschaftlichen Geschmack erlernen.

Präferenzmodellierung

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

MM-CondChain: Ein programmatisch verifizierter Benchmark für visuell fundiertes tiefes zusammengesetztes Schlussfolgern

Visuelle Fragebeantwortung

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

Können Vision-Language Models das Shell-Spiel lösen?

Objektverfolgung

Tiedong Liu, Wee Sun Lee

OmniForcing: Freisetzung der Echtzeit-gemeinsamen Audio-Visual-Generierung

Diffusionsmodell

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

daVinci-Env: Skalierbare Synthese einer offenen SWE-Umgebung

Codegenerierung

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

Cheers: Die Entkopplung von Patch-Details von semantischen Repräsentationen ermöglicht eine einheitliche multimodale Verständigung und Generierung

Yichen Zhang, Da Peng, Zonghao Guo, et al.

LMEB: Benchmark für Langzeit-Gedächtnis-Einbettungen

Retrieval-Augmented Generation

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

DreamVideo-Omni: Omni-Motion-gesteuerte Mehrsubjekt-Videoanpassung mit latenter Identitätsverstärkung durch Reinforcement Learning

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

ShotVerse: Fortschritte in der kinematografischen Kamerasteuerung für textgesteuerte Erstellung von Mehrschuss-Videos

Songlin Yang, Zhe Wang, Xuyi Yang, et al.

Video-basierte Belohnungsmodellierung für Computer-Nutzung-Agenten

Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.

IndexCache: Beschleunigung von Sparse Attention durch Wiederverwendung von Cross-Layer-Indizes

Yushi Bai, Qian Dong, Ting Jiang, et al.

Generative Modelle verstehen den Raum: Freisetzung impliziter 3D-Priors für das Szenenverständnis

Generative Modelle verstehen den Raum: Freisetzung impliziter 3D-Priors für das Szenenverständnis

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

Effizientes Reasoning mit Balanced Thinking

Effizientes Reasoning mit Balanced Thinking

Yulin Li, Tengyao Tu, Li Ding, et al.

Vor dem Handeln schauen: Verbesserung der visuellen Grundrepräsentationen für Vision-Language-Action-Modelle

Multimodale Darstellung

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

Komplementäres Reinforcement Learning

Verstärkendes Lernen

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

Alignment macht Sprachmodelle normativ, nicht deskriptiv.

Präferenzmodellierung

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

MosaicMem: Hybride räumliche Speichersysteme für kontrollierbare Videoweltmodelle

Diffusionsmodell

Wei Yu, Runjia Qian, Yumeng Li, et al.

MetaClaw: Einfach sprechen – Ein Agent, der im Freien metanlernt und sich weiterentwickelt

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

Video-CoE: Verstärkung der Video-Ereignisvorhersage mittels Chain of Events

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge: Ein einheitliches Dataset-Toolkit und Modell für Zero-Shot Movie Dubbing in diversen filmischen Szenen

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

In-Context Watermarks für Large Language Models

Textgenerierung

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

WorldCam: Interaktive autoregressive 3D-Spielwelten mit Kameraposen als vereinheitlichender geometrischer Darstellung

Diffusionsmodell

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

Die Entmystifizierung von Video Reasoning

Diffusionsmodell

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

Kinema4D: Kinematische 4D-Weltmodellierung für raumzeitliche eingebettete Simulationen

Körperliche Intelligenz

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

Qianfan-OCR: Ein einheitliches End-to-End-Modell für Dokumentenintelligenz

Dokumentenverstehen

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

InCoder-32B: Ein Code-Grundmodell für industrielle Anwendungsszenarien

Codegenerierung

Jian Yang, Wei Zhang, Jiajun Wu, et al.

MiroThinker-1.7 & H1: Hin zu Heavy-Duty Research Agents durch Verifikation

MiroMind Team, S. Bai, L. Bing, et al.

HSImul3R: Physik-in-the-Loop-Rekonstruktion simulationsbereiter Mensch-Szenen-Interaktionen

3D-Maschinenvision

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

Aufmerksamkeitsresiduen

Kimi Team, Guangyu Chen, Yu Zhang, et al.

Verankierung von Welt-Simulationsmodellen in einer realen Metropole

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

OpenSeeker: Demokratisierung von Frontier Search Agents durch vollständige Open-Sourcing von Trainingsdaten

Yuwen Du, Rui Ye, Shuo Tang, et al.

Künstliche Intelligenz kann wissenschaftlichen Geschmack erlernen.

Präferenzmodellierung

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

MM-CondChain: Ein programmatisch verifizierter Benchmark für visuell fundiertes tiefes zusammengesetztes Schlussfolgern

Visuelle Fragebeantwortung

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

Können Vision-Language Models das Shell-Spiel lösen?

Objektverfolgung

Tiedong Liu, Wee Sun Lee

OmniForcing: Freisetzung der Echtzeit-gemeinsamen Audio-Visual-Generierung

Diffusionsmodell

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

daVinci-Env: Skalierbare Synthese einer offenen SWE-Umgebung

Codegenerierung

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

Cheers: Die Entkopplung von Patch-Details von semantischen Repräsentationen ermöglicht eine einheitliche multimodale Verständigung und Generierung

Yichen Zhang, Da Peng, Zonghao Guo, et al.

LMEB: Benchmark für Langzeit-Gedächtnis-Einbettungen

Retrieval-Augmented Generation

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

DreamVideo-Omni: Omni-Motion-gesteuerte Mehrsubjekt-Videoanpassung mit latenter Identitätsverstärkung durch Reinforcement Learning

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

ShotVerse: Fortschritte in der kinematografischen Kamerasteuerung für textgesteuerte Erstellung von Mehrschuss-Videos

Songlin Yang, Zhe Wang, Xuyi Yang, et al.

Video-basierte Belohnungsmodellierung für Computer-Nutzung-Agenten

Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.

IndexCache: Beschleunigung von Sparse Attention durch Wiederverwendung von Cross-Layer-Indizes

Yushi Bai, Qian Dong, Ting Jiang, et al.

Vor dem Handeln schauen: Verbesserung der visuellen Grundrepräsentationen für Vision-Language-Action-Modelle

Komplementäres Reinforcement Learning

Alignment macht Sprachmodelle normativ, nicht deskriptiv.

MosaicMem: Hybride räumliche Speichersysteme für kontrollierbare Videoweltmodelle

MetaClaw: Einfach sprechen – Ein Agent, der im Freien metanlernt und sich weiterentwickelt

Video-CoE: Verstärkung der Video-Ereignisvorhersage mittels Chain of Events

FunCineForge: Ein einheitliches Dataset-Toolkit und Modell für Zero-Shot Movie Dubbing in diversen filmischen Szenen

In-Context Watermarks für Large Language Models

WorldCam: Interaktive autoregressive 3D-Spielwelten mit Kameraposen als vereinheitlichender geometrischer Darstellung

Die Entmystifizierung von Video Reasoning

Kinema4D: Kinematische 4D-Weltmodellierung für raumzeitliche eingebettete Simulationen

Qianfan-OCR: Ein einheitliches End-to-End-Modell für Dokumentenintelligenz

InCoder-32B: Ein Code-Grundmodell für industrielle Anwendungsszenarien

MiroThinker-1.7 & H1: Hin zu Heavy-Duty Research Agents durch Verifikation

HSImul3R: Physik-in-the-Loop-Rekonstruktion simulationsbereiter Mensch-Szenen-Interaktionen

Mixture-of-Depths Attention

Aufmerksamkeitsresiduen

Verankierung von Welt-Simulationsmodellen in einer realen Metropole

OpenSeeker: Demokratisierung von Frontier Search Agents durch vollständige Open-Sourcing von Trainingsdaten

Künstliche Intelligenz kann wissenschaftlichen Geschmack erlernen.

MM-CondChain: Ein programmatisch verifizierter Benchmark für visuell fundiertes tiefes zusammengesetztes Schlussfolgern

Können Vision-Language Models das Shell-Spiel lösen?

OmniForcing: Freisetzung der Echtzeit-gemeinsamen Audio-Visual-Generierung

daVinci-Env: Skalierbare Synthese einer offenen SWE-Umgebung

Cheers: Die Entkopplung von Patch-Details von semantischen Repräsentationen ermöglicht eine einheitliche multimodale Verständigung und Generierung

LMEB: Benchmark für Langzeit-Gedächtnis-Einbettungen

DreamVideo-Omni: Omni-Motion-gesteuerte Mehrsubjekt-Videoanpassung mit latenter Identitätsverstärkung durch Reinforcement Learning

ShotVerse: Fortschritte in der kinematografischen Kamerasteuerung für textgesteuerte Erstellung von Mehrschuss-Videos

Video-basierte Belohnungsmodellierung für Computer-Nutzung-Agenten

IndexCache: Beschleunigung von Sparse Attention durch Wiederverwendung von Cross-Layer-Indizes

Vor dem Handeln schauen: Verbesserung der visuellen Grundrepräsentationen für Vision-Language-Action-Modelle

Komplementäres Reinforcement Learning

Alignment macht Sprachmodelle normativ, nicht deskriptiv.

MosaicMem: Hybride räumliche Speichersysteme für kontrollierbare Videoweltmodelle

MetaClaw: Einfach sprechen – Ein Agent, der im Freien metanlernt und sich weiterentwickelt

Video-CoE: Verstärkung der Video-Ereignisvorhersage mittels Chain of Events

FunCineForge: Ein einheitliches Dataset-Toolkit und Modell für Zero-Shot Movie Dubbing in diversen filmischen Szenen

In-Context Watermarks für Large Language Models

WorldCam: Interaktive autoregressive 3D-Spielwelten mit Kameraposen als vereinheitlichender geometrischer Darstellung

Die Entmystifizierung von Video Reasoning

Kinema4D: Kinematische 4D-Weltmodellierung für raumzeitliche eingebettete Simulationen

Qianfan-OCR: Ein einheitliches End-to-End-Modell für Dokumentenintelligenz

InCoder-32B: Ein Code-Grundmodell für industrielle Anwendungsszenarien

MiroThinker-1.7 & H1: Hin zu Heavy-Duty Research Agents durch Verifikation

HSImul3R: Physik-in-the-Loop-Rekonstruktion simulationsbereiter Mensch-Szenen-Interaktionen

Mixture-of-Depths Attention

Aufmerksamkeitsresiduen

Verankierung von Welt-Simulationsmodellen in einer realen Metropole

OpenSeeker: Demokratisierung von Frontier Search Agents durch vollständige Open-Sourcing von Trainingsdaten

Künstliche Intelligenz kann wissenschaftlichen Geschmack erlernen.

MM-CondChain: Ein programmatisch verifizierter Benchmark für visuell fundiertes tiefes zusammengesetztes Schlussfolgern

Können Vision-Language Models das Shell-Spiel lösen?

OmniForcing: Freisetzung der Echtzeit-gemeinsamen Audio-Visual-Generierung

daVinci-Env: Skalierbare Synthese einer offenen SWE-Umgebung

Cheers: Die Entkopplung von Patch-Details von semantischen Repräsentationen ermöglicht eine einheitliche multimodale Verständigung und Generierung

LMEB: Benchmark für Langzeit-Gedächtnis-Einbettungen

DreamVideo-Omni: Omni-Motion-gesteuerte Mehrsubjekt-Videoanpassung mit latenter Identitätsverstärkung durch Reinforcement Learning

ShotVerse: Fortschritte in der kinematografischen Kamerasteuerung für textgesteuerte Erstellung von Mehrschuss-Videos

Video-basierte Belohnungsmodellierung für Computer-Nutzung-Agenten

IndexCache: Beschleunigung von Sparse Attention durch Wiederverwendung von Cross-Layer-Indizes