HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

FlowAnchor: Stabilisierung des Editiersignals für inversion-freies Video-Editing

FlowAnchor: Stabilisierung des Editiersignals für inversion-freies Video-Editing

Ze Chen, Lan Chen, Yuanhang Li, et al.

LLM-Sicherheit von innen heraus: Detektion schädlicher Inhalte mittels interner Repräsentationen

LLM-Sicherheit von innen heraus: Detektion schädlicher Inhalte mittels interner Repräsentationen

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: Diffusionsgestützte neuronale Repräsentationsoptimierung für die tomografische 3D-Rekonstruktion mit spärlichen Ansichten

Diffusionsmodell

Medizinische Bildgebung

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling: Grundlagen, Fähigkeiten, Gesetze und darüber hinaus

KI Für Die Wissenschaft

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

Entkoppeltes DiLoCo für resilientes verteiltes Pre-training

Decoupled DiLoCo Team

EVENT TENSOR: EINE VEREINFACHTE ABSTRAKTION ZUR KOMPILIERUNG DYNAMISCHER MEGAKERNEL

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

Schnelles und langsames Sehen: Erlernen des Zeitflusses in Videos

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Ko-evolutionäre LLM-Entscheidungs- und Skill-Bank-Agents für Langzeitaufgaben

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: Ein Wahrnehmungs-orientierter Datensatz und eine Metrik für die stilisierungsunabhängige Erkennung der Gesichtsidealität

Gesichtserkennung

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: Auf dem Weg zu einer vereinheitlichten physikalischen Sprache für das Human-to-Humanoid Policy Learning und World Modeling

Multimodale Darstellung

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: Eine vereinheitlichte Benchmark-Suite für interaktive Video-World-Models

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: In Richtung einer schwierigkeitsschichtbasierten Zeitreihen-Argumentation von der visuellen Wahrnehmung bis zur Semantik

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

Bildgeneratoren sind Generalist Vision Learners

Bildgenerierung

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Lexikalisierung von Modalitäten als diskrete Tokens

Multimodale Darstellung

Meituan LongCat Team

FIPO: Elicitation von Deep Reasoning durch Future-KL-beeinflusste Policy Optimization

Verstärkendes Lernen

Qwen Pilot Team

Bootstrapping-Exploration mittels sprachlichem Feedback auf Gruppenebene in Reinforcement Learning

Verstärkendes Lernen

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Benchmarking der audiovisuellen sozialen Interaktivität in Omni-Modellen

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4: Auf dem Weg zu hocheffizienter Million-Token Context Intelligence

Erforschung der räumlichen Intelligenz aus einer generativen Perspektive

Bildgenerierung

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI: Physikbasiertes geschicktes Mensch-Objekt-Interaktionsverhalten durch synthetische Videoimitation

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

Reward Hacking im Zeitalter großer Modelle: Mechanismen, emergente Fehlbeurteilungen (Misalignment) und Herausforderungen

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus: Hin zu frontier-orientierten Deep Research Agents im Edge-Scale-Bereich mit nur 10K Open Data

Überwachtes Feinabstimmen

Venus Team, Sunhao Dai, Yong Deng, et al.

Optimierung der Policy in der nahen Zukunft

Verstärkendes Lernen

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Vereinheitlichung von multimodaler Verständnis- und Generierungsleistung mittels eines Diffusion Large Language Model

Diffusionsmodell

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: Instruction Tuning von Large Language Models für die biomedizinische natürliche Sprachverarbeitung

Überwachtes Feinabstimmen

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Technischer Bericht zu Logics-Parsing-Omni

Task Tokens: Ein flexibler Ansatz zur Anpassung von Behavior Foundation Models

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

PlayCoder: Playability von LLM-generiertem GUI-Code ermöglichen

Codegenerierung

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

TEMPO: Skalierung des Test-time Training für Large Reasoning Models

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

AnyRecon: Beliebige 3D-Rekonstruktion mittels eines Video-Diffusionsmodells

Diffusionsmodell

3D-Maschinenvision

Yutian Chen, Shi Guo, Renbiao Jin, et al.

AgentSPEX: Eine Agent SPecification and EXecution Language

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

CoInteract: Physikalisch konsistente Video-Synthese von Human-Object-Interaktionen durch räumlich strukturierte Co-Generierung

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

FlowAnchor: Stabilisierung des Editiersignals für inversion-freies Video-Editing

FlowAnchor: Stabilisierung des Editiersignals für inversion-freies Video-Editing

Ze Chen, Lan Chen, Yuanhang Li, et al.

LLM-Sicherheit von innen heraus: Detektion schädlicher Inhalte mittels interner Repräsentationen

LLM-Sicherheit von innen heraus: Detektion schädlicher Inhalte mittels interner Repräsentationen

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: Diffusionsgestützte neuronale Repräsentationsoptimierung für die tomografische 3D-Rekonstruktion mit spärlichen Ansichten

Diffusionsmodell

Medizinische Bildgebung

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling: Grundlagen, Fähigkeiten, Gesetze und darüber hinaus

KI Für Die Wissenschaft

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

Entkoppeltes DiLoCo für resilientes verteiltes Pre-training

Decoupled DiLoCo Team

EVENT TENSOR: EINE VEREINFACHTE ABSTRAKTION ZUR KOMPILIERUNG DYNAMISCHER MEGAKERNEL

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

Schnelles und langsames Sehen: Erlernen des Zeitflusses in Videos

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Ko-evolutionäre LLM-Entscheidungs- und Skill-Bank-Agents für Langzeitaufgaben

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: Ein Wahrnehmungs-orientierter Datensatz und eine Metrik für die stilisierungsunabhängige Erkennung der Gesichtsidealität

Gesichtserkennung

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: Auf dem Weg zu einer vereinheitlichten physikalischen Sprache für das Human-to-Humanoid Policy Learning und World Modeling

Multimodale Darstellung

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: Eine vereinheitlichte Benchmark-Suite für interaktive Video-World-Models

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: In Richtung einer schwierigkeitsschichtbasierten Zeitreihen-Argumentation von der visuellen Wahrnehmung bis zur Semantik

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

Bildgeneratoren sind Generalist Vision Learners

Bildgenerierung

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Lexikalisierung von Modalitäten als diskrete Tokens

Multimodale Darstellung

Meituan LongCat Team

FIPO: Elicitation von Deep Reasoning durch Future-KL-beeinflusste Policy Optimization

Verstärkendes Lernen

Qwen Pilot Team

Bootstrapping-Exploration mittels sprachlichem Feedback auf Gruppenebene in Reinforcement Learning

Verstärkendes Lernen

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Benchmarking der audiovisuellen sozialen Interaktivität in Omni-Modellen

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4: Auf dem Weg zu hocheffizienter Million-Token Context Intelligence

Erforschung der räumlichen Intelligenz aus einer generativen Perspektive

Bildgenerierung

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI: Physikbasiertes geschicktes Mensch-Objekt-Interaktionsverhalten durch synthetische Videoimitation

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

Reward Hacking im Zeitalter großer Modelle: Mechanismen, emergente Fehlbeurteilungen (Misalignment) und Herausforderungen

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus: Hin zu frontier-orientierten Deep Research Agents im Edge-Scale-Bereich mit nur 10K Open Data

Überwachtes Feinabstimmen

Venus Team, Sunhao Dai, Yong Deng, et al.

Optimierung der Policy in der nahen Zukunft

Verstärkendes Lernen

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Vereinheitlichung von multimodaler Verständnis- und Generierungsleistung mittels eines Diffusion Large Language Model

Diffusionsmodell

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: Instruction Tuning von Large Language Models für die biomedizinische natürliche Sprachverarbeitung

Überwachtes Feinabstimmen

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Technischer Bericht zu Logics-Parsing-Omni

Task Tokens: Ein flexibler Ansatz zur Anpassung von Behavior Foundation Models

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

PlayCoder: Playability von LLM-generiertem GUI-Code ermöglichen

Codegenerierung

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

TEMPO: Skalierung des Test-time Training für Large Reasoning Models

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

AnyRecon: Beliebige 3D-Rekonstruktion mittels eines Video-Diffusionsmodells

Diffusionsmodell

3D-Maschinenvision

Yutian Chen, Shi Guo, Renbiao Jin, et al.

AgentSPEX: Eine Agent SPecification and EXecution Language

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

CoInteract: Physikalisch konsistente Video-Synthese von Human-Object-Interaktionen durch räumlich strukturierte Co-Generierung

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

DiffNR: Diffusionsgestützte neuronale Repräsentationsoptimierung für die tomografische 3D-Rekonstruktion mit spärlichen Ansichten

Agentic World Modeling: Grundlagen, Fähigkeiten, Gesetze und darüber hinaus

Entkoppeltes DiLoCo für resilientes verteiltes Pre-training

EVENT TENSOR: EINE VEREINFACHTE ABSTRAKTION ZUR KOMPILIERUNG DYNAMISCHER MEGAKERNEL

Schnelles und langsames Sehen: Erlernen des Zeitflusses in Videos

Ko-evolutionäre LLM-Entscheidungs- und Skill-Bank-Agents für Langzeitaufgaben

StyleID: Ein Wahrnehmungs-orientierter Datensatz und eine Metrik für die stilisierungsunabhängige Erkennung der Gesichtsidealität

UniT: Auf dem Weg zu einer vereinheitlichten physikalischen Sprache für das Human-to-Humanoid Policy Learning und World Modeling

WorldMark: Eine vereinheitlichte Benchmark-Suite für interaktive Video-World-Models

LLaTiSA: In Richtung einer schwierigkeitsschichtbasierten Zeitreihen-Argumentation von der visuellen Wahrnehmung bis zur Semantik

Bildgeneratoren sind Generalist Vision Learners

LongCat-Next: Lexikalisierung von Modalitäten als diskrete Tokens

FIPO: Elicitation von Deep Reasoning durch Future-KL-beeinflusste Policy Optimization

Bootstrapping-Exploration mittels sprachlichem Feedback auf Gruppenebene in Reinforcement Learning

SocialOmni: Benchmarking der audiovisuellen sozialen Interaktivität in Omni-Modellen

DeepSeek-V4: Auf dem Weg zu hocheffizienter Million-Token Context Intelligence

Erforschung der räumlichen Intelligenz aus einer generativen Perspektive

DeVI: Physikbasiertes geschicktes Mensch-Objekt-Interaktionsverhalten durch synthetische Videoimitation

Reward Hacking im Zeitalter großer Modelle: Mechanismen, emergente Fehlbeurteilungen (Misalignment) und Herausforderungen

DR-Venus: Hin zu frontier-orientierten Deep Research Agents im Edge-Scale-Bereich mit nur 10K Open Data

Optimierung der Policy in der nahen Zukunft

LLaDA2.0-Uni: Vereinheitlichung von multimodaler Verständnis- und Generierungsleistung mittels eines Diffusion Large Language Model

BioInstruct: Instruction Tuning von Large Language Models für die biomedizinische natürliche Sprachverarbeitung

Technischer Bericht zu Logics-Parsing-Omni

Task Tokens: Ein flexibler Ansatz zur Anpassung von Behavior Foundation Models

PlayCoder: Playability von LLM-generiertem GUI-Code ermöglichen

TEMPO: Skalierung des Test-time Training für Large Reasoning Models

AnyRecon: Beliebige 3D-Rekonstruktion mittels eines Video-Diffusionsmodells

AgentSPEX: Eine Agent SPecification and EXecution Language

CoInteract: Physikalisch konsistente Video-Synthese von Human-Object-Interaktionen durch räumlich strukturierte Co-Generierung

DiffNR: Diffusionsgestützte neuronale Repräsentationsoptimierung für die tomografische 3D-Rekonstruktion mit spärlichen Ansichten

Agentic World Modeling: Grundlagen, Fähigkeiten, Gesetze und darüber hinaus

Entkoppeltes DiLoCo für resilientes verteiltes Pre-training

EVENT TENSOR: EINE VEREINFACHTE ABSTRAKTION ZUR KOMPILIERUNG DYNAMISCHER MEGAKERNEL

Schnelles und langsames Sehen: Erlernen des Zeitflusses in Videos

Ko-evolutionäre LLM-Entscheidungs- und Skill-Bank-Agents für Langzeitaufgaben

StyleID: Ein Wahrnehmungs-orientierter Datensatz und eine Metrik für die stilisierungsunabhängige Erkennung der Gesichtsidealität

UniT: Auf dem Weg zu einer vereinheitlichten physikalischen Sprache für das Human-to-Humanoid Policy Learning und World Modeling

WorldMark: Eine vereinheitlichte Benchmark-Suite für interaktive Video-World-Models

LLaTiSA: In Richtung einer schwierigkeitsschichtbasierten Zeitreihen-Argumentation von der visuellen Wahrnehmung bis zur Semantik

Bildgeneratoren sind Generalist Vision Learners

LongCat-Next: Lexikalisierung von Modalitäten als diskrete Tokens

FIPO: Elicitation von Deep Reasoning durch Future-KL-beeinflusste Policy Optimization

Bootstrapping-Exploration mittels sprachlichem Feedback auf Gruppenebene in Reinforcement Learning

SocialOmni: Benchmarking der audiovisuellen sozialen Interaktivität in Omni-Modellen

DeepSeek-V4: Auf dem Weg zu hocheffizienter Million-Token Context Intelligence

Erforschung der räumlichen Intelligenz aus einer generativen Perspektive

DeVI: Physikbasiertes geschicktes Mensch-Objekt-Interaktionsverhalten durch synthetische Videoimitation

Reward Hacking im Zeitalter großer Modelle: Mechanismen, emergente Fehlbeurteilungen (Misalignment) und Herausforderungen

DR-Venus: Hin zu frontier-orientierten Deep Research Agents im Edge-Scale-Bereich mit nur 10K Open Data

Optimierung der Policy in der nahen Zukunft

LLaDA2.0-Uni: Vereinheitlichung von multimodaler Verständnis- und Generierungsleistung mittels eines Diffusion Large Language Model

BioInstruct: Instruction Tuning von Large Language Models für die biomedizinische natürliche Sprachverarbeitung

Technischer Bericht zu Logics-Parsing-Omni

Task Tokens: Ein flexibler Ansatz zur Anpassung von Behavior Foundation Models

PlayCoder: Playability von LLM-generiertem GUI-Code ermöglichen

TEMPO: Skalierung des Test-time Training für Large Reasoning Models

AnyRecon: Beliebige 3D-Rekonstruktion mittels eines Video-Diffusionsmodells

AgentSPEX: Eine Agent SPecification and EXecution Language

CoInteract: Physikalisch konsistente Video-Synthese von Human-Object-Interaktionen durch räumlich strukturierte Co-Generierung