HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

EmbeddingGemma: Leistungsstarke und leichtgewichtige Textdarstellungen

EmbeddingGemma: Leistungsstarke und leichtgewichtige Textdarstellungen

Henrique Schechter Vera, Sahil Dua, Biao Zhang, et al.

Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO

Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO

Überwachtes Feinabstimmen

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, et al.

Wie weit sind VLMs von visueller räumlicher Intelligenz entfernt? Eine benchmarkgetriebene Perspektive

Songsong Yu, Yuxin Chen, Hao Ju, et al.

SIM-CoT: Supervised Implicit Chain-of-Thought

Überwachtes Feinabstimmen

Xilin Wei, Xiaoran Liu, Yuhang Zang, et al.

SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?

Intelligente Fragebeantwortung

Weihan Peng, Yuling Shi, Yuhang Wang, et al.

Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.

Ein N-Plus-1 GPT-Agent zur kritischen Lösung von Problemen der mechanischen Ingenieurwissenschaft

Anthony Patera, Rohan Abeyaratne

Memory-QA: Beantwortung von Erinnerungsfragen basierend auf multimodalen Erinnerungen

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.

MAPO: Gemischte Vorteils-Politik-Optimierung

Verstärkendes Lernen

Präferenzmodellierung

Wenke Huang, Quan Zhang, Yiyang Fang, et al.

Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung

Diffusionsmodell

Yanzuo Lu, Xin Xia, Manlin Zhang, et al.

Verstärkendes Lernen auf vortrainierten Daten

Verstärkendes Lernen

Siheng Li, Kejiao Li, Zenan Xu, et al.

Benötigen Sie propriozeptive Zustände in visuomotorischen Politiken?

Körperliche Intelligenz

Juntu Zhao, Wenbo Lu, Di Zhang, et al.

Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR

Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.

GenExam: Ein multidisziplinäres Text-zu-Bild-Prüfungssystem

Bildgenerierung

Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.

Nav-R1: Schlussfolgern und Navigation in körperhaften Szenen

Körperliche Intelligenz

Verstärkendes Lernen

Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.

MoEs sind stärker, als man denkt: Hyper-Parallele Inferenz-Skalierung mit RoE

Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.

ARE: Skalierung von Agentenumgebungen und -bewertungen

Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.

DiffusionNFT: Online-Diffusionsverstärkung mit Vorwärtsprozess

Diffusionsmodell

Verstärkendes Lernen

Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.

TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs

Verstärkendes Lernen

Yunheng Li, Jing Cheng, Shaoyong Jia, et al.

OnePiece: Einbringung von Kontextingenieurwesen und Schlussfolgerung in ein industrielles Kaskaden-Ranking-System

Multi-Task-Lernen

Sunhao Dai, Jiakai Tang, Jiahua Wu, et al.

OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle

Jinshu Chen, Xinghui Li, Xu Bai, et al.

LIMI: Weniger ist mehr für Agentur

Yang Xiao, Mohan Jiang, Jie Sun, et al.

Ein modulares Fusions-Neuronales-Netzwerk-Ansatz zur effizienten Vorhersage von Multi-Metall-Bindungsstellen in Proteinsequenzen

Faltungsneuronales Netzwerk

JIZHENG LI, CHANGXIN FAN, Hoi Ying LAU, et al.

IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie

Siyi Zhou, Yiquan Zhou, Yi He, et al.

Direkte Ausrichtung der vollständigen Diffusionsbahn mit feinkörnigen menschlichen Präferenzen

Diffusionsmodell

Xiangwei Shen, Zhimin Li, Zhantao Yang, et al.

Ein mehrskaliger graphischer neuronaler Prozess mit cross-drug Co-Attention zur Vorhersage von Arzneimittelwechselwirkungen

Zimo Yan, Jie Zhang, Zheng Xie, et al.

GenCAD-3D: Generierung von CAD-Programmen mittels multimodaler Latentraumalignierung und Ausbalancierung synthetischer Datensätze

Codegenerierung

Nomi Yu, Md Ferdous Alam, A. John Hart, et al.

BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten

Mensch-Computer-Interaktion

Shaojie Zhang, Ruoceng Zhang, Pei Fu, et al.

Lynx: Hin zum hochauflösenden personalisierten Videogenerieren

Shen Sang, Tiancheng Zhi, Tianpei Gu, et al.

SPATIALGEN: layoutgeleitete Generierung 3D-Innenräume

Chuan Fang, Heng Li, Yixun Liang, et al.

BaseReward: Eine starke Baseline für multimodale Belohnungsmodelle

Präferenzmodellierung

Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, et al.

Latente Zonennetzwerk: Ein einheitliches Prinzip für generatives Modellieren, Repräsentationslernen und Klassifikation

Multi-Task-Lernen

Zinan Lin, Enshu Liu, Xuefei Ning, et al.

EmbeddingGemma: Leistungsstarke und leichtgewichtige Textdarstellungen

EmbeddingGemma: Leistungsstarke und leichtgewichtige Textdarstellungen

Henrique Schechter Vera, Sahil Dua, Biao Zhang, et al.

Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO

Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO

Überwachtes Feinabstimmen

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, et al.

Wie weit sind VLMs von visueller räumlicher Intelligenz entfernt? Eine benchmarkgetriebene Perspektive

Songsong Yu, Yuxin Chen, Hao Ju, et al.

SIM-CoT: Supervised Implicit Chain-of-Thought

Überwachtes Feinabstimmen

Xilin Wei, Xiaoran Liu, Yuhang Zang, et al.

SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?

Intelligente Fragebeantwortung

Weihan Peng, Yuling Shi, Yuhang Wang, et al.

Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.

Ein N-Plus-1 GPT-Agent zur kritischen Lösung von Problemen der mechanischen Ingenieurwissenschaft

Anthony Patera, Rohan Abeyaratne

Memory-QA: Beantwortung von Erinnerungsfragen basierend auf multimodalen Erinnerungen

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.

MAPO: Gemischte Vorteils-Politik-Optimierung

Verstärkendes Lernen

Präferenzmodellierung

Wenke Huang, Quan Zhang, Yiyang Fang, et al.

Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung

Diffusionsmodell

Yanzuo Lu, Xin Xia, Manlin Zhang, et al.

Verstärkendes Lernen auf vortrainierten Daten

Verstärkendes Lernen

Siheng Li, Kejiao Li, Zenan Xu, et al.

Benötigen Sie propriozeptive Zustände in visuomotorischen Politiken?

Körperliche Intelligenz

Juntu Zhao, Wenbo Lu, Di Zhang, et al.

Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR

Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.

GenExam: Ein multidisziplinäres Text-zu-Bild-Prüfungssystem

Bildgenerierung

Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.

Nav-R1: Schlussfolgern und Navigation in körperhaften Szenen

Körperliche Intelligenz

Verstärkendes Lernen

Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.

MoEs sind stärker, als man denkt: Hyper-Parallele Inferenz-Skalierung mit RoE

Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.

ARE: Skalierung von Agentenumgebungen und -bewertungen

Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.

DiffusionNFT: Online-Diffusionsverstärkung mit Vorwärtsprozess

Diffusionsmodell

Verstärkendes Lernen

Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.

TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs

Verstärkendes Lernen

Yunheng Li, Jing Cheng, Shaoyong Jia, et al.

OnePiece: Einbringung von Kontextingenieurwesen und Schlussfolgerung in ein industrielles Kaskaden-Ranking-System

Multi-Task-Lernen

Sunhao Dai, Jiakai Tang, Jiahua Wu, et al.

OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle

Jinshu Chen, Xinghui Li, Xu Bai, et al.

LIMI: Weniger ist mehr für Agentur

Yang Xiao, Mohan Jiang, Jie Sun, et al.

Ein modulares Fusions-Neuronales-Netzwerk-Ansatz zur effizienten Vorhersage von Multi-Metall-Bindungsstellen in Proteinsequenzen

Faltungsneuronales Netzwerk

JIZHENG LI, CHANGXIN FAN, Hoi Ying LAU, et al.

IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie

Siyi Zhou, Yiquan Zhou, Yi He, et al.

Direkte Ausrichtung der vollständigen Diffusionsbahn mit feinkörnigen menschlichen Präferenzen

Diffusionsmodell

Xiangwei Shen, Zhimin Li, Zhantao Yang, et al.

Ein mehrskaliger graphischer neuronaler Prozess mit cross-drug Co-Attention zur Vorhersage von Arzneimittelwechselwirkungen

Zimo Yan, Jie Zhang, Zheng Xie, et al.

GenCAD-3D: Generierung von CAD-Programmen mittels multimodaler Latentraumalignierung und Ausbalancierung synthetischer Datensätze

Codegenerierung

Nomi Yu, Md Ferdous Alam, A. John Hart, et al.

BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten

Mensch-Computer-Interaktion

Shaojie Zhang, Ruoceng Zhang, Pei Fu, et al.

Lynx: Hin zum hochauflösenden personalisierten Videogenerieren

Shen Sang, Tiancheng Zhi, Tianpei Gu, et al.

SPATIALGEN: layoutgeleitete Generierung 3D-Innenräume

Chuan Fang, Heng Li, Yixun Liang, et al.

BaseReward: Eine starke Baseline für multimodale Belohnungsmodelle

Präferenzmodellierung

Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, et al.

Latente Zonennetzwerk: Ein einheitliches Prinzip für generatives Modellieren, Repräsentationslernen und Klassifikation

Multi-Task-Lernen

Zinan Lin, Enshu Liu, Xuefei Ning, et al.

Wie weit sind VLMs von visueller räumlicher Intelligenz entfernt? Eine benchmarkgetriebene Perspektive

SIM-CoT: Supervised Implicit Chain-of-Thought

SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?

Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer

Ein N-Plus-1 GPT-Agent zur kritischen Lösung von Problemen der mechanischen Ingenieurwissenschaft

Memory-QA: Beantwortung von Erinnerungsfragen basierend auf multimodalen Erinnerungen

MAPO: Gemischte Vorteils-Politik-Optimierung

Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung

Verstärkendes Lernen auf vortrainierten Daten

Benötigen Sie propriozeptive Zustände in visuomotorischen Politiken?

Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR

GenExam: Ein multidisziplinäres Text-zu-Bild-Prüfungssystem

Nav-R1: Schlussfolgern und Navigation in körperhaften Szenen

MoEs sind stärker, als man denkt: Hyper-Parallele Inferenz-Skalierung mit RoE

ARE: Skalierung von Agentenumgebungen und -bewertungen

DiffusionNFT: Online-Diffusionsverstärkung mit Vorwärtsprozess

TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs

OnePiece: Einbringung von Kontextingenieurwesen und Schlussfolgerung in ein industrielles Kaskaden-Ranking-System

OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle

LIMI: Weniger ist mehr für Agentur

Ein modulares Fusions-Neuronales-Netzwerk-Ansatz zur effizienten Vorhersage von Multi-Metall-Bindungsstellen in Proteinsequenzen

IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie

Direkte Ausrichtung der vollständigen Diffusionsbahn mit feinkörnigen menschlichen Präferenzen

Ein mehrskaliger graphischer neuronaler Prozess mit cross-drug Co-Attention zur Vorhersage von Arzneimittelwechselwirkungen

GenCAD-3D: Generierung von CAD-Programmen mittels multimodaler Latentraumalignierung und Ausbalancierung synthetischer Datensätze

BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten

Lynx: Hin zum hochauflösenden personalisierten Videogenerieren

SPATIALGEN: layoutgeleitete Generierung 3D-Innenräume

BaseReward: Eine starke Baseline für multimodale Belohnungsmodelle

Latente Zonennetzwerk: Ein einheitliches Prinzip für generatives Modellieren, Repräsentationslernen und Klassifikation

Wie weit sind VLMs von visueller räumlicher Intelligenz entfernt? Eine benchmarkgetriebene Perspektive

SIM-CoT: Supervised Implicit Chain-of-Thought

SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?

Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer

Ein N-Plus-1 GPT-Agent zur kritischen Lösung von Problemen der mechanischen Ingenieurwissenschaft

Memory-QA: Beantwortung von Erinnerungsfragen basierend auf multimodalen Erinnerungen

MAPO: Gemischte Vorteils-Politik-Optimierung

Hyper-Bagel: Ein einheitlicher Beschleunigungsrahmen für multimodales Verständnis und Generierung

Verstärkendes Lernen auf vortrainierten Daten

Benötigen Sie propriozeptive Zustände in visuomotorischen Politiken?

Baseer: Ein visuell-sprachliches Modell für die arabische Dokument-zu-Markdown-OCR

GenExam: Ein multidisziplinäres Text-zu-Bild-Prüfungssystem

Nav-R1: Schlussfolgern und Navigation in körperhaften Szenen

MoEs sind stärker, als man denkt: Hyper-Parallele Inferenz-Skalierung mit RoE

ARE: Skalierung von Agentenumgebungen und -bewertungen

DiffusionNFT: Online-Diffusionsverstärkung mit Vorwärtsprozess

TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs

OnePiece: Einbringung von Kontextingenieurwesen und Schlussfolgerung in ein industrielles Kaskaden-Ranking-System

OmniInsert: maskenfreie Videoeinblendung beliebiger Referenzen mittels Diffusions-Transformer-Modelle

LIMI: Weniger ist mehr für Agentur

Ein modulares Fusions-Neuronales-Netzwerk-Ansatz zur effizienten Vorhersage von Multi-Metall-Bindungsstellen in Proteinsequenzen

IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie

Direkte Ausrichtung der vollständigen Diffusionsbahn mit feinkörnigen menschlichen Präferenzen

Ein mehrskaliger graphischer neuronaler Prozess mit cross-drug Co-Attention zur Vorhersage von Arzneimittelwechselwirkungen

GenCAD-3D: Generierung von CAD-Programmen mittels multimodaler Latentraumalignierung und Ausbalancierung synthetischer Datensätze

BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten

Lynx: Hin zum hochauflösenden personalisierten Videogenerieren

SPATIALGEN: layoutgeleitete Generierung 3D-Innenräume

BaseReward: Eine starke Baseline für multimodale Belohnungsmodelle

Latente Zonennetzwerk: Ein einheitliches Prinzip für generatives Modellieren, Repräsentationslernen und Klassifikation