HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

SPAN: Raumliche Projektionsausrichtung für die monokulare 3D-Objekterkennung

SPAN: Raumliche Projektionsausrichtung für die monokulare 3D-Objekterkennung

Objekterkennung

3D-Maschinenvision

Yifan Wang, Yian Zhao, Fanqi Pu, et al.

Effiziente Approximation von Volterra-Reihen für hochdimensionale Systeme

Effiziente Approximation von Volterra-Reihen für hochdimensionale Systeme

Maschinelles Lernen

Navin Khoshnan, Claudia K Petritsch, Bryce-Allen Bagley

SofT-GRPO: Überwindung der diskreten Token-basierten Verstärkungslernens von Sprachmodellen durch eine Gumbel-reparameterisierte Soft-Thinking-Policy-Optimierung

Verstärkendes Lernen

Zhi Zheng, Wee Sun Lee

RedOne 2.0: Neubewertung der domain-spezifischen Nachschulung von LLMs in sozialen Netzwerken

Überwachtes Feinabstimmen

Fei Zhao, Chonggang Lu, Haofu Qian, et al.

Die Station: Eine offene Weltumgebung für künstliche Intelligenz-getriebene Entdeckungen

Stephen Chung, Wenyu Du

DRIVE: Best Practices für die Datenaufbereitung bei der Verstärkungslernverfahren mit überprüfbarer Belohnung in der wettbewerbsorientierten Codeerzeugung

Überwachtes Feinabstimmen

Verstärkendes Lernen

Speed Zhu, Jianwei Cai, Guang Chen, et al.

IterResearch: Neubewertung von Langfrist-Agenten durch markovsche Zustandsrekonstruktion

Verstärkendes Lernen

Guoxin Chen, Zile Qiao, Xuanzhong Chen, et al.

HaluMem: Evaluierung von Halluzinationen in Speichersystemen von Agenten

Ding Chen, Simin Niu, Kehang Li, et al.

GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle

Präferenzmodellierung

Kaichen Zhang, Yuzhong Hong, Junwei Bao, et al.

ReCA: Integrierte Beschleunigung für Echtzeit- und effiziente kooperative körperhafte autonome Agenten

Körperliche Intelligenz

Zishen Wan, Yuhang Du, Mohamed Ibrahim, et al.

DexFlyWheel: Ein skalierbarer und selbstverbessernder Rahmen zur Datenerzeugung für geschickte Manipulation

Verstärkendes Lernen

Kefei Zhu, Fengshuo Bai, YuanHao Xiang, et al.

NovaFlow: Null-Shot-Manipulation mittels handlungsfähiger Flüsse aus generierten Videos

Hongyu Li, Lingfeng Sun, Yafei Hu, et al.

TreeSynth: Synthetische Erzeugung vielfältiger Daten von Grund auf durch baumgeleitete Unterraumpartitionierung

Sheng Wang, Pengan Chen, Jingqi Zhou, et al.

GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen

Überwachtes Feinabstimmen

Verstärkendes Lernen

Ivan Anishchenko, Yakov Kipnis, Indrek Kalvet, et al.

Modellierung von konformationsensembles von Proteinen und kleinen Molekülen mit PLACER

Ivan Anishchenko, Yakov Kipnis, Indrek Kalvet, et al.

Agentenspezifische Kontextgestaltung: Evolvierte Kontexte für selbstverbessernde Sprachmodelle

Qizheng Zhang, Changran Hu, Shubhangi Upasani, et al.

DiaMoE-TTS: Ein einheitlicher, auf IPA basierender Dialekt-TTS-Framework mit Mixture-of-Experts und parameter-effizienter Zero-Shot-Anpassung

Ziqi Chen, Gongyu Chen, Yihua Wang, et al.

KI-gestützte AR-Montage: Objekterkennung und Computer Vision für die augmentierte Realität-gestützte Montage

Objekterkennung

Objekterkennung

Alexander Htet Kyaw, Haotian Ma, Sasa Zivkovic, et al.

Jailbreaking im Heuhaufen

Rishi Rajesh Shah, Chen Henry Wu, Shashwat Saxena, et al.

CritiCal: Kann Kritik die Unsicherheits- oder Zuverlässigkeitskalibrierung von LLMs unterstützen?

Qing Zong, Jiayu Liu, Tianshi Zheng, et al.

Zur Minderung von Halluzinationen in großen Vision-Sprach-Modellen durch die Verfeinerung von textuellen Embeddings

Multimodale Darstellung

Aakriti Agrawal, Gouthaman KV, Rohith Aralikatti, et al.

Visuelle räumliche Abstimmung

Multimodale Darstellung

Rui Yang, Ziyu Zhu, Yanwei Li, et al.

Zu gut, um schlecht zu sein: Über den Misserfolg von LLMs beim Rollenspiel von Bösewichten

Zihao Yi, Qingxuan Jiang, Ruotian Ma, et al.

DeepEyesV2: Ein Schritt hin zu einem agierenden multimodalen Modell

Jack Hong, Chenxiao Zhao, ChengLin Zhu, et al.

Einsatz von kontinuierlicher Glukoseüberwachung mit maschinellem Lernen zur Identifizierung metabolischer Subphänotypen und zur Informationsgewinnung für präzise Lebensstiländerungen

Ahmed A. Metwally, Heyjun Park, Yue Wu, et al.

Die Wiederverwendung von Vortrainingsdaten zur Testzeit wirkt sich wie ein Rechenverstärker aus

Retrieval-Augmented Generation

Alex Fang, Thomas Voice, Ruoming Pang, et al.

NVIDIA Nemotron Nano V2 VL

NVIDIA, Amala Sanjay Deshmukh, Kateryna Chumachenko, et al.

CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten

Jiayu Liu, Cheng Qian, Zhaochen Su, et al.

Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Shusheng Yang, Jihan Yang, Pinzhi Huang, et al.

Skalierung des Lernens von Agenten durch Erfahrungssynthese

Verstärkendes Lernen

Zhaorun Chen, Zhuokai Zhao, Kai Zhang, et al.

V-Thinker: Interaktives Denken mit Bildern

Runqi Qiao, Qiuna Tan, Minghan Yang, et al.

Mit Video denken: Videoerzeugung als vielversprechendes multimodales Schlussfolgerungsparadigma

Jingqi Tong, Yurong Mou, Hangcheng Li, et al.

SPAN: Raumliche Projektionsausrichtung für die monokulare 3D-Objekterkennung

SPAN: Raumliche Projektionsausrichtung für die monokulare 3D-Objekterkennung

Objekterkennung

3D-Maschinenvision

Yifan Wang, Yian Zhao, Fanqi Pu, et al.

Effiziente Approximation von Volterra-Reihen für hochdimensionale Systeme

Effiziente Approximation von Volterra-Reihen für hochdimensionale Systeme

Maschinelles Lernen

Navin Khoshnan, Claudia K Petritsch, Bryce-Allen Bagley

SofT-GRPO: Überwindung der diskreten Token-basierten Verstärkungslernens von Sprachmodellen durch eine Gumbel-reparameterisierte Soft-Thinking-Policy-Optimierung

Verstärkendes Lernen

Zhi Zheng, Wee Sun Lee

RedOne 2.0: Neubewertung der domain-spezifischen Nachschulung von LLMs in sozialen Netzwerken

Überwachtes Feinabstimmen

Fei Zhao, Chonggang Lu, Haofu Qian, et al.

Die Station: Eine offene Weltumgebung für künstliche Intelligenz-getriebene Entdeckungen

Stephen Chung, Wenyu Du

DRIVE: Best Practices für die Datenaufbereitung bei der Verstärkungslernverfahren mit überprüfbarer Belohnung in der wettbewerbsorientierten Codeerzeugung

Überwachtes Feinabstimmen

Verstärkendes Lernen

Speed Zhu, Jianwei Cai, Guang Chen, et al.

IterResearch: Neubewertung von Langfrist-Agenten durch markovsche Zustandsrekonstruktion

Verstärkendes Lernen

Guoxin Chen, Zile Qiao, Xuanzhong Chen, et al.

HaluMem: Evaluierung von Halluzinationen in Speichersystemen von Agenten

Ding Chen, Simin Niu, Kehang Li, et al.

GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle

Präferenzmodellierung

Kaichen Zhang, Yuzhong Hong, Junwei Bao, et al.

ReCA: Integrierte Beschleunigung für Echtzeit- und effiziente kooperative körperhafte autonome Agenten

Körperliche Intelligenz

Zishen Wan, Yuhang Du, Mohamed Ibrahim, et al.

DexFlyWheel: Ein skalierbarer und selbstverbessernder Rahmen zur Datenerzeugung für geschickte Manipulation

Verstärkendes Lernen

Kefei Zhu, Fengshuo Bai, YuanHao Xiang, et al.

NovaFlow: Null-Shot-Manipulation mittels handlungsfähiger Flüsse aus generierten Videos

Hongyu Li, Lingfeng Sun, Yafei Hu, et al.

TreeSynth: Synthetische Erzeugung vielfältiger Daten von Grund auf durch baumgeleitete Unterraumpartitionierung

Sheng Wang, Pengan Chen, Jingqi Zhou, et al.

GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen

Überwachtes Feinabstimmen

Verstärkendes Lernen

Ivan Anishchenko, Yakov Kipnis, Indrek Kalvet, et al.

Modellierung von konformationsensembles von Proteinen und kleinen Molekülen mit PLACER

Ivan Anishchenko, Yakov Kipnis, Indrek Kalvet, et al.

Agentenspezifische Kontextgestaltung: Evolvierte Kontexte für selbstverbessernde Sprachmodelle

Qizheng Zhang, Changran Hu, Shubhangi Upasani, et al.

DiaMoE-TTS: Ein einheitlicher, auf IPA basierender Dialekt-TTS-Framework mit Mixture-of-Experts und parameter-effizienter Zero-Shot-Anpassung

Ziqi Chen, Gongyu Chen, Yihua Wang, et al.

KI-gestützte AR-Montage: Objekterkennung und Computer Vision für die augmentierte Realität-gestützte Montage

Objekterkennung

Objekterkennung

Alexander Htet Kyaw, Haotian Ma, Sasa Zivkovic, et al.

Jailbreaking im Heuhaufen

Rishi Rajesh Shah, Chen Henry Wu, Shashwat Saxena, et al.

CritiCal: Kann Kritik die Unsicherheits- oder Zuverlässigkeitskalibrierung von LLMs unterstützen?

Qing Zong, Jiayu Liu, Tianshi Zheng, et al.

Zur Minderung von Halluzinationen in großen Vision-Sprach-Modellen durch die Verfeinerung von textuellen Embeddings

Multimodale Darstellung

Aakriti Agrawal, Gouthaman KV, Rohith Aralikatti, et al.

Visuelle räumliche Abstimmung

Multimodale Darstellung

Rui Yang, Ziyu Zhu, Yanwei Li, et al.

Zu gut, um schlecht zu sein: Über den Misserfolg von LLMs beim Rollenspiel von Bösewichten

Zihao Yi, Qingxuan Jiang, Ruotian Ma, et al.

DeepEyesV2: Ein Schritt hin zu einem agierenden multimodalen Modell

Jack Hong, Chenxiao Zhao, ChengLin Zhu, et al.

Einsatz von kontinuierlicher Glukoseüberwachung mit maschinellem Lernen zur Identifizierung metabolischer Subphänotypen und zur Informationsgewinnung für präzise Lebensstiländerungen

Ahmed A. Metwally, Heyjun Park, Yue Wu, et al.

Die Wiederverwendung von Vortrainingsdaten zur Testzeit wirkt sich wie ein Rechenverstärker aus

Retrieval-Augmented Generation

Alex Fang, Thomas Voice, Ruoming Pang, et al.

NVIDIA Nemotron Nano V2 VL

NVIDIA, Amala Sanjay Deshmukh, Kateryna Chumachenko, et al.

CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten

Jiayu Liu, Cheng Qian, Zhaochen Su, et al.

Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Shusheng Yang, Jihan Yang, Pinzhi Huang, et al.

Skalierung des Lernens von Agenten durch Erfahrungssynthese

Verstärkendes Lernen

Zhaorun Chen, Zhuokai Zhao, Kai Zhang, et al.

V-Thinker: Interaktives Denken mit Bildern

Runqi Qiao, Qiuna Tan, Minghan Yang, et al.

Mit Video denken: Videoerzeugung als vielversprechendes multimodales Schlussfolgerungsparadigma

Jingqi Tong, Yurong Mou, Hangcheng Li, et al.

SofT-GRPO: Überwindung der diskreten Token-basierten Verstärkungslernens von Sprachmodellen durch eine Gumbel-reparameterisierte Soft-Thinking-Policy-Optimierung

RedOne 2.0: Neubewertung der domain-spezifischen Nachschulung von LLMs in sozialen Netzwerken

Die Station: Eine offene Weltumgebung für künstliche Intelligenz-getriebene Entdeckungen

DRIVE: Best Practices für die Datenaufbereitung bei der Verstärkungslernverfahren mit überprüfbarer Belohnung in der wettbewerbsorientierten Codeerzeugung

IterResearch: Neubewertung von Langfrist-Agenten durch markovsche Zustandsrekonstruktion

HaluMem: Evaluierung von Halluzinationen in Speichersystemen von Agenten

GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle

ReCA: Integrierte Beschleunigung für Echtzeit- und effiziente kooperative körperhafte autonome Agenten

DexFlyWheel: Ein skalierbarer und selbstverbessernder Rahmen zur Datenerzeugung für geschickte Manipulation

NovaFlow: Null-Shot-Manipulation mittels handlungsfähiger Flüsse aus generierten Videos

TreeSynth: Synthetische Erzeugung vielfältiger Daten von Grund auf durch baumgeleitete Unterraumpartitionierung

GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen

Modellierung von konformationsensembles von Proteinen und kleinen Molekülen mit PLACER

Agentenspezifische Kontextgestaltung: Evolvierte Kontexte für selbstverbessernde Sprachmodelle

DiaMoE-TTS: Ein einheitlicher, auf IPA basierender Dialekt-TTS-Framework mit Mixture-of-Experts und parameter-effizienter Zero-Shot-Anpassung

KI-gestützte AR-Montage: Objekterkennung und Computer Vision für die augmentierte Realität-gestützte Montage

Jailbreaking im Heuhaufen

CritiCal: Kann Kritik die Unsicherheits- oder Zuverlässigkeitskalibrierung von LLMs unterstützen?

Zur Minderung von Halluzinationen in großen Vision-Sprach-Modellen durch die Verfeinerung von textuellen Embeddings

Visuelle räumliche Abstimmung

Zu gut, um schlecht zu sein: Über den Misserfolg von LLMs beim Rollenspiel von Bösewichten

DeepEyesV2: Ein Schritt hin zu einem agierenden multimodalen Modell

Einsatz von kontinuierlicher Glukoseüberwachung mit maschinellem Lernen zur Identifizierung metabolischer Subphänotypen und zur Informationsgewinnung für präzise Lebensstiländerungen

Die Wiederverwendung von Vortrainingsdaten zur Testzeit wirkt sich wie ein Rechenverstärker aus

NVIDIA Nemotron Nano V2 VL

CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten

Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Skalierung des Lernens von Agenten durch Erfahrungssynthese

V-Thinker: Interaktives Denken mit Bildern

Mit Video denken: Videoerzeugung als vielversprechendes multimodales Schlussfolgerungsparadigma

SofT-GRPO: Überwindung der diskreten Token-basierten Verstärkungslernens von Sprachmodellen durch eine Gumbel-reparameterisierte Soft-Thinking-Policy-Optimierung

RedOne 2.0: Neubewertung der domain-spezifischen Nachschulung von LLMs in sozialen Netzwerken

Die Station: Eine offene Weltumgebung für künstliche Intelligenz-getriebene Entdeckungen

DRIVE: Best Practices für die Datenaufbereitung bei der Verstärkungslernverfahren mit überprüfbarer Belohnung in der wettbewerbsorientierten Codeerzeugung

IterResearch: Neubewertung von Langfrist-Agenten durch markovsche Zustandsrekonstruktion

HaluMem: Evaluierung von Halluzinationen in Speichersystemen von Agenten

GVPO: Gruppensvarianz-Richtlinien-Optimierung für die Nachschulung großer Sprachmodelle

ReCA: Integrierte Beschleunigung für Echtzeit- und effiziente kooperative körperhafte autonome Agenten

DexFlyWheel: Ein skalierbarer und selbstverbessernder Rahmen zur Datenerzeugung für geschickte Manipulation

NovaFlow: Null-Shot-Manipulation mittels handlungsfähiger Flüsse aus generierten Videos

TreeSynth: Synthetische Erzeugung vielfältiger Daten von Grund auf durch baumgeleitete Unterraumpartitionierung

GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen

Modellierung von konformationsensembles von Proteinen und kleinen Molekülen mit PLACER

Agentenspezifische Kontextgestaltung: Evolvierte Kontexte für selbstverbessernde Sprachmodelle

DiaMoE-TTS: Ein einheitlicher, auf IPA basierender Dialekt-TTS-Framework mit Mixture-of-Experts und parameter-effizienter Zero-Shot-Anpassung

KI-gestützte AR-Montage: Objekterkennung und Computer Vision für die augmentierte Realität-gestützte Montage

Jailbreaking im Heuhaufen

CritiCal: Kann Kritik die Unsicherheits- oder Zuverlässigkeitskalibrierung von LLMs unterstützen?

Zur Minderung von Halluzinationen in großen Vision-Sprach-Modellen durch die Verfeinerung von textuellen Embeddings

Visuelle räumliche Abstimmung

Zu gut, um schlecht zu sein: Über den Misserfolg von LLMs beim Rollenspiel von Bösewichten

DeepEyesV2: Ein Schritt hin zu einem agierenden multimodalen Modell

Einsatz von kontinuierlicher Glukoseüberwachung mit maschinellem Lernen zur Identifizierung metabolischer Subphänotypen und zur Informationsgewinnung für präzise Lebensstiländerungen

Die Wiederverwendung von Vortrainingsdaten zur Testzeit wirkt sich wie ein Rechenverstärker aus

NVIDIA Nemotron Nano V2 VL

CostBench: Bewertung von Multi-Turn-Kosten-optimalem Planen und Anpassen in dynamischen Umgebungen für LLM-Tool-Verwendungs-Agenten

Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Skalierung des Lernens von Agenten durch Erfahrungssynthese

V-Thinker: Interaktives Denken mit Bildern

Mit Video denken: Videoerzeugung als vielversprechendes multimodales Schlussfolgerungsparadigma