HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen

VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen

Dokumentenverstehen

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-Welt: Weltweite Synthese sicherheitskritischer Daten für autonome Fahrsysteme mit end-to-end-Architektur

TeraSim-Welt: Weltweite Synthese sicherheitskritischer Daten für autonome Fahrsysteme mit end-to-end-Architektur

Geographische Information

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

Vorausschauendes Ankerung: Beibehaltung der Charakteridentität bei audiogetriebener menschlicher Animation

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln

Körperliche Intelligenz

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER: Fluss-automatische rekursive Transformatoren über Pixel

Bildgenerierung

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

Eine Übersicht über Datenagenten: Emerging Paradigm oder überzogene Hype?

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

ReCode: Plan und Aktion für eine universelle Steuerung der Granularität vereinheitlichen

Codegenerierung

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

Concerto: Gemeinsame 2D-3D selbstüberwachtes Lernen ergibt räumliche Darstellungen

Multimodale Darstellung

Computer Vision

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

Magellan: Geführter MCTS für die Erkundung latenter Räume und die Generierung von Neuheiten

Textgenerierung

DEEDEE: Schnelle und skalierbare Erkennung von Ausreißern in der Dynamik

Verstärkendes Lernen

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

Sparsifikation von Block-Sparse Attention durch Token-Permutation

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

Eine Definition von AGI

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

Von der Rauschunterdrückung zur Verfeinerung: Ein korrigierender Rahmen für visuell-sprachliche Diffusionsmodelle

Diffusionsmodell

Yatai Ji, Teng Wang, Yuying Ge, et al.

Schritt für Schritt proben, chunkweise optimieren: Chunk-orientiertes GRPO für die Text-zu-Bild-Generierung

Bildgenerierung

Yifu Luo, Penghui Du, Bo Li, et al.

Video-As-Prompt: Einheitliche semantische Steuerung für die Videogenerierung

Yuxuan Bian, Xin Chen, Zenan Li, et al.

DeepAgent: Ein allgemeiner Schlussfolgerungs-Agent mit skalierbaren Werkzeugen

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

Unsicherheitsbewusste mehrzielorientierte Verstärkungslern-geleitete Diffusionsmodelle für die 3D-De-novo-Moleküldesign

Diffusionsmodell

Verstärkendes Lernen

Lianghong Chen, Dongkyu Eugene Kim, Mike Domaratzki, et al.

Reac-Discovery: Eine künstliche Intelligenz-getriebene Plattform zur kontinuierlichen Stromreaktor-Entdeckung und -Optimierung

KI Für Die Wissenschaft

Cristopher Tinajero, Marcileia Zanatta, Julián E. Sánchez-Velandia, et al.

BoltzGen: Ein Schritt hin zu einer universellen Designstrategie für Bindemittel

KI Für Die Wissenschaft

Hannes Stark, Felix Faltings, MinGyu Choi, et al.

HSCodeComp: Ein realistischer und fachlich anspruchsvoller Benchmark für Deep-Search-Agenten bei hierarchischer Regelanwendung

Yiqian Yang, Tian Lan, Qianghuai Jia, et al.

DyPE: Dynamische Positionsextrapolation für Diffusionen mit ultrahocher Auflösung

Diffusionsmodell

Noam Issachar, Guy Yariv, Sagie Benaim, et al.

HoloCine: Holistische Generierung kinematografischer, mehrfach geschnittener, langer Videonarrativen

Yihao Meng, Hao Ouyang, Yue Yu, et al.

Open-o3 Video: Grundlegende Video-Reasoning mit expliziten räumlich-zeitlichen Beweisen

Jiahao Meng, Xiangtai Li, Haochen Wang, et al.

AdaSPEC: Selektive Wissensvermittlung für effiziente spekulative Decoder

Yuezhou Hu, Jiaxin Guo, Xinyu Feng, et al.

Mensch-Agenten-Kooperation zur Papier-zu-Seite-Generierung für unter 0,10 $

Qianli Ma, Siyu Wang, Yilin Chen, et al.

Visuelle Fragebeantwortung

Chao Huang, Zeliang Zhang, Jiang Liu, et al.

Sprachmodelle sind injektiv und daher invertierbar

Natürliche Sprachverarbeitung

Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, et al.

Der freie Transformer

François Fleuret

Vorhersage der Verarbeitungszeit einer Quantenverarbeitungseinheit (QPU) mit maschinellem Lernen

Maschinelles Lernen

Lucy Xing, Sanjay Vishwakarma, David Kremer, et al.

Beobachtung konstruktiver Interferenz am Rand der quanten-ergodischen Phase

KI Für Die Wissenschaft

Google Quantum AI and Collaborators

VideoAgentTrek: Computer-Verwendung-Vortrainierung aus unlabeled Videos

Aktionserkennung

Mensch-Computer-Interaktion

Dunjie Lu, Yiheng Xu, Junli Wang, et al.

GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell

Körperliche Intelligenz

GigaBrain Team, Angen Ye, Boyuan Wang, et al.

VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen

VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen

Dokumentenverstehen

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-Welt: Weltweite Synthese sicherheitskritischer Daten für autonome Fahrsysteme mit end-to-end-Architektur

TeraSim-Welt: Weltweite Synthese sicherheitskritischer Daten für autonome Fahrsysteme mit end-to-end-Architektur

Geographische Information

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

Vorausschauendes Ankerung: Beibehaltung der Charakteridentität bei audiogetriebener menschlicher Animation

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln

Körperliche Intelligenz

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER: Fluss-automatische rekursive Transformatoren über Pixel

Bildgenerierung

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

Eine Übersicht über Datenagenten: Emerging Paradigm oder überzogene Hype?

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

ReCode: Plan und Aktion für eine universelle Steuerung der Granularität vereinheitlichen

Codegenerierung

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

Concerto: Gemeinsame 2D-3D selbstüberwachtes Lernen ergibt räumliche Darstellungen

Multimodale Darstellung

Computer Vision

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

Magellan: Geführter MCTS für die Erkundung latenter Räume und die Generierung von Neuheiten

Textgenerierung

DEEDEE: Schnelle und skalierbare Erkennung von Ausreißern in der Dynamik

Verstärkendes Lernen

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

Sparsifikation von Block-Sparse Attention durch Token-Permutation

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

Eine Definition von AGI

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

Von der Rauschunterdrückung zur Verfeinerung: Ein korrigierender Rahmen für visuell-sprachliche Diffusionsmodelle

Diffusionsmodell

Yatai Ji, Teng Wang, Yuying Ge, et al.

Schritt für Schritt proben, chunkweise optimieren: Chunk-orientiertes GRPO für die Text-zu-Bild-Generierung

Bildgenerierung

Yifu Luo, Penghui Du, Bo Li, et al.

Video-As-Prompt: Einheitliche semantische Steuerung für die Videogenerierung

Yuxuan Bian, Xin Chen, Zenan Li, et al.

DeepAgent: Ein allgemeiner Schlussfolgerungs-Agent mit skalierbaren Werkzeugen

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

Unsicherheitsbewusste mehrzielorientierte Verstärkungslern-geleitete Diffusionsmodelle für die 3D-De-novo-Moleküldesign

Diffusionsmodell

Verstärkendes Lernen

Lianghong Chen, Dongkyu Eugene Kim, Mike Domaratzki, et al.

Reac-Discovery: Eine künstliche Intelligenz-getriebene Plattform zur kontinuierlichen Stromreaktor-Entdeckung und -Optimierung

KI Für Die Wissenschaft

Cristopher Tinajero, Marcileia Zanatta, Julián E. Sánchez-Velandia, et al.

BoltzGen: Ein Schritt hin zu einer universellen Designstrategie für Bindemittel

KI Für Die Wissenschaft

Hannes Stark, Felix Faltings, MinGyu Choi, et al.

HSCodeComp: Ein realistischer und fachlich anspruchsvoller Benchmark für Deep-Search-Agenten bei hierarchischer Regelanwendung

Yiqian Yang, Tian Lan, Qianghuai Jia, et al.

DyPE: Dynamische Positionsextrapolation für Diffusionen mit ultrahocher Auflösung

Diffusionsmodell

Noam Issachar, Guy Yariv, Sagie Benaim, et al.

HoloCine: Holistische Generierung kinematografischer, mehrfach geschnittener, langer Videonarrativen

Yihao Meng, Hao Ouyang, Yue Yu, et al.

Open-o3 Video: Grundlegende Video-Reasoning mit expliziten räumlich-zeitlichen Beweisen

Jiahao Meng, Xiangtai Li, Haochen Wang, et al.

AdaSPEC: Selektive Wissensvermittlung für effiziente spekulative Decoder

Yuezhou Hu, Jiaxin Guo, Xinyu Feng, et al.

Mensch-Agenten-Kooperation zur Papier-zu-Seite-Generierung für unter 0,10 $

Qianli Ma, Siyu Wang, Yilin Chen, et al.

Visuelle Fragebeantwortung

Chao Huang, Zeliang Zhang, Jiang Liu, et al.

Sprachmodelle sind injektiv und daher invertierbar

Natürliche Sprachverarbeitung

Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, et al.

Der freie Transformer

François Fleuret

Vorhersage der Verarbeitungszeit einer Quantenverarbeitungseinheit (QPU) mit maschinellem Lernen

Maschinelles Lernen

Lucy Xing, Sanjay Vishwakarma, David Kremer, et al.

Beobachtung konstruktiver Interferenz am Rand der quanten-ergodischen Phase

KI Für Die Wissenschaft

Google Quantum AI and Collaborators

VideoAgentTrek: Computer-Verwendung-Vortrainierung aus unlabeled Videos

Aktionserkennung

Mensch-Computer-Interaktion

Dunjie Lu, Yiheng Xu, Junli Wang, et al.

GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell

Körperliche Intelligenz

GigaBrain Team, Angen Ye, Boyuan Wang, et al.

Vorausschauendes Ankerung: Beibehaltung der Charakteridentität bei audiogetriebener menschlicher Animation

VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln

FARMER: Fluss-automatische rekursive Transformatoren über Pixel

Eine Übersicht über Datenagenten: Emerging Paradigm oder überzogene Hype?

ReCode: Plan und Aktion für eine universelle Steuerung der Granularität vereinheitlichen

Concerto: Gemeinsame 2D-3D selbstüberwachtes Lernen ergibt räumliche Darstellungen

Magellan: Geführter MCTS für die Erkundung latenter Räume und die Generierung von Neuheiten

DEEDEE: Schnelle und skalierbare Erkennung von Ausreißern in der Dynamik

Sparsifikation von Block-Sparse Attention durch Token-Permutation

Eine Definition von AGI

Von der Rauschunterdrückung zur Verfeinerung: Ein korrigierender Rahmen für visuell-sprachliche Diffusionsmodelle

Schritt für Schritt proben, chunkweise optimieren: Chunk-orientiertes GRPO für die Text-zu-Bild-Generierung

Video-As-Prompt: Einheitliche semantische Steuerung für die Videogenerierung

DeepAgent: Ein allgemeiner Schlussfolgerungs-Agent mit skalierbaren Werkzeugen

Unsicherheitsbewusste mehrzielorientierte Verstärkungslern-geleitete Diffusionsmodelle für die 3D-De-novo-Moleküldesign

Reac-Discovery: Eine künstliche Intelligenz-getriebene Plattform zur kontinuierlichen Stromreaktor-Entdeckung und -Optimierung

BoltzGen: Ein Schritt hin zu einer universellen Designstrategie für Bindemittel

HSCodeComp: Ein realistischer und fachlich anspruchsvoller Benchmark für Deep-Search-Agenten bei hierarchischer Regelanwendung

DyPE: Dynamische Positionsextrapolation für Diffusionen mit ultrahocher Auflösung

HoloCine: Holistische Generierung kinematografischer, mehrfach geschnittener, langer Videonarrativen

Open-o3 Video: Grundlegende Video-Reasoning mit expliziten räumlich-zeitlichen Beweisen

AdaSPEC: Selektive Wissensvermittlung für effiziente spekulative Decoder

Mensch-Agenten-Kooperation zur Papier-zu-Seite-Generierung für unter 0,10 $

Richtungsorientierte Reasoning-Injektion zur Feinabstimmung von MLLMs

Sprachmodelle sind injektiv und daher invertierbar

Der freie Transformer

Vorhersage der Verarbeitungszeit einer Quantenverarbeitungseinheit (QPU) mit maschinellem Lernen

Beobachtung konstruktiver Interferenz am Rand der quanten-ergodischen Phase

VideoAgentTrek: Computer-Verwendung-Vortrainierung aus unlabeled Videos

GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell

Vorausschauendes Ankerung: Beibehaltung der Charakteridentität bei audiogetriebener menschlicher Animation

VITA-E: Natürliche körperliche Interaktion mit gleichzeitiger Wahrnehmung, Hören, Sprechen und Handeln

FARMER: Fluss-automatische rekursive Transformatoren über Pixel

Eine Übersicht über Datenagenten: Emerging Paradigm oder überzogene Hype?

ReCode: Plan und Aktion für eine universelle Steuerung der Granularität vereinheitlichen

Concerto: Gemeinsame 2D-3D selbstüberwachtes Lernen ergibt räumliche Darstellungen

Magellan: Geführter MCTS für die Erkundung latenter Räume und die Generierung von Neuheiten

DEEDEE: Schnelle und skalierbare Erkennung von Ausreißern in der Dynamik

Sparsifikation von Block-Sparse Attention durch Token-Permutation

Eine Definition von AGI

Von der Rauschunterdrückung zur Verfeinerung: Ein korrigierender Rahmen für visuell-sprachliche Diffusionsmodelle

Schritt für Schritt proben, chunkweise optimieren: Chunk-orientiertes GRPO für die Text-zu-Bild-Generierung

Video-As-Prompt: Einheitliche semantische Steuerung für die Videogenerierung

DeepAgent: Ein allgemeiner Schlussfolgerungs-Agent mit skalierbaren Werkzeugen

Unsicherheitsbewusste mehrzielorientierte Verstärkungslern-geleitete Diffusionsmodelle für die 3D-De-novo-Moleküldesign

Reac-Discovery: Eine künstliche Intelligenz-getriebene Plattform zur kontinuierlichen Stromreaktor-Entdeckung und -Optimierung

BoltzGen: Ein Schritt hin zu einer universellen Designstrategie für Bindemittel

HSCodeComp: Ein realistischer und fachlich anspruchsvoller Benchmark für Deep-Search-Agenten bei hierarchischer Regelanwendung

DyPE: Dynamische Positionsextrapolation für Diffusionen mit ultrahocher Auflösung

HoloCine: Holistische Generierung kinematografischer, mehrfach geschnittener, langer Videonarrativen

Open-o3 Video: Grundlegende Video-Reasoning mit expliziten räumlich-zeitlichen Beweisen

AdaSPEC: Selektive Wissensvermittlung für effiziente spekulative Decoder

Mensch-Agenten-Kooperation zur Papier-zu-Seite-Generierung für unter 0,10 $

Richtungsorientierte Reasoning-Injektion zur Feinabstimmung von MLLMs

Sprachmodelle sind injektiv und daher invertierbar

Der freie Transformer

Vorhersage der Verarbeitungszeit einer Quantenverarbeitungseinheit (QPU) mit maschinellem Lernen

Beobachtung konstruktiver Interferenz am Rand der quanten-ergodischen Phase

VideoAgentTrek: Computer-Verwendung-Vortrainierung aus unlabeled Videos

GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell