HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Hauptbereich

GPU

Konsole
Studio
Dokumente
Preise

Pulse

Neuigkeiten

Ressourcen

Fachartikel
Notebooks
Datensätze
Wiki

Benchmarks

SOTA
LLM-Modelle
GPU-Bestenliste

Community

Veranstaltungen

Tools

Über uns Nutzungsbedingungen Datenschutzerklärung
Deutsch

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Täglich aktualisierte hochmoderne KI-Forschungsarbeiten, um Sie über die neuesten KI-Trends auf dem Laufenden zu halten

Gestalten Sie die Zukunft der Künstlichen Intelligenz

Über uns

Über uns Support Hilfe zu Datensätzen

Produkte

Neuigkeiten Fachartikel Notebooks Datensätze Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

ExoActor: Exozentrische Video-Generierung als generalisierbare interaktive Kontrolle humanoider Roboter

ExoActor: Exozentrische Video-Generierung als generalisierbare interaktive Kontrolle humanoider Roboter

Körperliche Intelligenz

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Co-Evolving Policy Distillation

Co-Evolving Policy Distillation

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Visuelle Generierung im neuen Zeitalter: Eine Entwicklung von atomarer Abbildung zu agentenbasiertem Weltmodellieren

Bildgenerierung

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Kooperation heterogener wissenschaftlicher Fundamentalmuster

KI Für Die Wissenschaft

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Diffusionsvorlagen: Ein einheitliches Plugin-Rahmenwerk für kontrollierte Diffusion

Diffusionsmodell

Bildgenerierung

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE: Online-Tight-Kopplung der Multi-Modale-Fusion für open-vocabulary semantische SLAM in dynamischen Umgebungen

Multimodale Darstellung

3D-Maschinenvision

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym: Ein skalierbares Framework zur Entwicklung effektiver Claw-Agenten

Fei Bai, Huatong Song, Shuang Sun, et al.

Die TIDE-Wende: Architekturübergreifende Distillation für Diffusions-LLMs

Diffusionsmodell

Gongbo Zhang, Wen Wang, Ye Tian, et al.

Große Sprachmodelle erkunden durch latentes Distilling

Textgenerierung

Yuanhao Zeng, Ao Lu, Lufei Li, et al.

GLM-5V-Turbo: Auf dem Weg zu einem nativen Grundlagenmodell für multimodale Agents

V Team, Wenyi Hong, Xiaotao Gu, et al.

SWE-chat: Interaktionen von Coding Agents mit echten Nutzern in der Wildnis

Codegenerierung

Joachim Baumann, Vishakh Padmakumar, Xiang Li, et al.

AdaExplore: Ausfallgetriebene Anpassung und diversitätserhaltende Suche für eine effiziente Kernel-Generierung

Codegenerierung

Weihua Du, Jingming Zhuo, Yixin Dong, et al.

Verfeinerung durch Regeneration: Vergrößerung des Änderungsraums verbessert die Bildverfeinerung in vereinheitlichten multimodalen Modellen

Bildgenerierung

Jiayi Guo, Linqing Wang, Jiangshan Wang, et al.

AutoResearchBench: Benchmarking von AI Agents bei der komplexen Entdeckung wissenschaftlicher Literatur

Lei Xiong, Kun Luo, Ziyi Xia, et al.

Meta-CoT: Verbesserung der Granularität und Generalisierung in der Bildbearbeitung

Visuelle Fragebeantwortung

Shiyi Zhang, Yiji Cheng, Tiankai Hang, et al.

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Multimodale Darstellung

Jinxiang Meng, Shaoping Huang, Fangyu Lei, et al.

Programmierung mit Daten: Testgetriebene Data Engineering für selbstverbessernde LLMs aus rohen Korpora

Überwachtes Feinabstimmen

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

Rekursive Multi-Agenten-Systeme

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

Fähigkeitsabruf-Ergänzung für Agentische KI

Retrieval-Augmented Generation

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM: Vision-Language-Modelle können Bilder annotieren, um Gedanken zu erklären und Benutzer zu leiten

Visuelle Fragebeantwortung

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC: Ein Benchmark zur regionalen Veränderungsanalyse in der Fernerkundung, der durch abfrageergänztes Best-of-N-Ranking erstellt wurde

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech: Eine skalierbare Benchmark für Transkription, Übersetzung und Verständnis in langem Sprachat

Audio- Und Sprachverarbeitung

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark: Ein Lebendiges-Welt-Benchmark für Mehrfach-Turn-, Mehr-Tage-, Multimodale Coworker-Agents

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2: Pixel-Embeddings schlagen visuelle Encodierer für multimodales Verständnis und Generierung

Bildgenerierung

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

Sicherheit in Vision-Sprache-Aktions-Systemen: Bedrohungen, Herausforderungen, Bewertungen und Mechanismen

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI: Neuordnung der Bewertung der visuellen räumlichen Intelligenz für eine präzise Beurteilung der 3D-Reasoning-Fähigkeiten von VLMs

Visuelle Fragebeantwortung

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

Von Fähigkeiten zu Talenten: Organisation heterogener Agents als realweltliches Unternehmen

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: Verstärkung von 3D-Einschränkungen für die Text-zu-Video-Generierung

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

Videonalyse und -generierung mittels einer semantischen Progress-Funktion

Videobearbeitung

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter: Einheitliche Reasoning-, Generierungs- und Optimierungsprozesse für die automatische fotografische Bildbearbeitung

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

Kontexte sind niemals lang genug: Strukturiertes Schließen für skalierbares Question Answering über umfangreiche Dokumentensätze hinweg

Intelligente Fragebeantwortung

Dokumentenverstehen

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench: Ein Benchmark für die Suche durch KI agents in realen Umgebungen

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

ExoActor: Exozentrische Video-Generierung als generalisierbare interaktive Kontrolle humanoider Roboter

ExoActor: Exozentrische Video-Generierung als generalisierbare interaktive Kontrolle humanoider Roboter

Körperliche Intelligenz

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Co-Evolving Policy Distillation

Co-Evolving Policy Distillation

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Visuelle Generierung im neuen Zeitalter: Eine Entwicklung von atomarer Abbildung zu agentenbasiertem Weltmodellieren

Bildgenerierung

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Kooperation heterogener wissenschaftlicher Fundamentalmuster

KI Für Die Wissenschaft

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Diffusionsvorlagen: Ein einheitliches Plugin-Rahmenwerk für kontrollierte Diffusion

Diffusionsmodell

Bildgenerierung

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE: Online-Tight-Kopplung der Multi-Modale-Fusion für open-vocabulary semantische SLAM in dynamischen Umgebungen

Multimodale Darstellung

3D-Maschinenvision

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym: Ein skalierbares Framework zur Entwicklung effektiver Claw-Agenten

Fei Bai, Huatong Song, Shuang Sun, et al.

Die TIDE-Wende: Architekturübergreifende Distillation für Diffusions-LLMs

Diffusionsmodell

Gongbo Zhang, Wen Wang, Ye Tian, et al.

Große Sprachmodelle erkunden durch latentes Distilling

Textgenerierung

Yuanhao Zeng, Ao Lu, Lufei Li, et al.

GLM-5V-Turbo: Auf dem Weg zu einem nativen Grundlagenmodell für multimodale Agents

V Team, Wenyi Hong, Xiaotao Gu, et al.

SWE-chat: Interaktionen von Coding Agents mit echten Nutzern in der Wildnis

Codegenerierung

Joachim Baumann, Vishakh Padmakumar, Xiang Li, et al.

AdaExplore: Ausfallgetriebene Anpassung und diversitätserhaltende Suche für eine effiziente Kernel-Generierung

Codegenerierung

Weihua Du, Jingming Zhuo, Yixin Dong, et al.

Verfeinerung durch Regeneration: Vergrößerung des Änderungsraums verbessert die Bildverfeinerung in vereinheitlichten multimodalen Modellen

Bildgenerierung

Jiayi Guo, Linqing Wang, Jiangshan Wang, et al.

AutoResearchBench: Benchmarking von AI Agents bei der komplexen Entdeckung wissenschaftlicher Literatur

Lei Xiong, Kun Luo, Ziyi Xia, et al.

Meta-CoT: Verbesserung der Granularität und Generalisierung in der Bildbearbeitung

Visuelle Fragebeantwortung

Shiyi Zhang, Yiji Cheng, Tiankai Hang, et al.

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Multimodale Darstellung

Jinxiang Meng, Shaoping Huang, Fangyu Lei, et al.

Programmierung mit Daten: Testgetriebene Data Engineering für selbstverbessernde LLMs aus rohen Korpora

Überwachtes Feinabstimmen

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

Rekursive Multi-Agenten-Systeme

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

Fähigkeitsabruf-Ergänzung für Agentische KI

Retrieval-Augmented Generation

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM: Vision-Language-Modelle können Bilder annotieren, um Gedanken zu erklären und Benutzer zu leiten

Visuelle Fragebeantwortung

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC: Ein Benchmark zur regionalen Veränderungsanalyse in der Fernerkundung, der durch abfrageergänztes Best-of-N-Ranking erstellt wurde

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech: Eine skalierbare Benchmark für Transkription, Übersetzung und Verständnis in langem Sprachat

Audio- Und Sprachverarbeitung

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark: Ein Lebendiges-Welt-Benchmark für Mehrfach-Turn-, Mehr-Tage-, Multimodale Coworker-Agents

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2: Pixel-Embeddings schlagen visuelle Encodierer für multimodales Verständnis und Generierung

Bildgenerierung

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

Sicherheit in Vision-Sprache-Aktions-Systemen: Bedrohungen, Herausforderungen, Bewertungen und Mechanismen

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI: Neuordnung der Bewertung der visuellen räumlichen Intelligenz für eine präzise Beurteilung der 3D-Reasoning-Fähigkeiten von VLMs

Visuelle Fragebeantwortung

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

Von Fähigkeiten zu Talenten: Organisation heterogener Agents als realweltliches Unternehmen

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: Verstärkung von 3D-Einschränkungen für die Text-zu-Video-Generierung

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

Videonalyse und -generierung mittels einer semantischen Progress-Funktion

Videobearbeitung

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter: Einheitliche Reasoning-, Generierungs- und Optimierungsprozesse für die automatische fotografische Bildbearbeitung

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

Kontexte sind niemals lang genug: Strukturiertes Schließen für skalierbares Question Answering über umfangreiche Dokumentensätze hinweg

Intelligente Fragebeantwortung

Dokumentenverstehen

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench: Ein Benchmark für die Suche durch KI agents in realen Umgebungen

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

Visuelle Generierung im neuen Zeitalter: Eine Entwicklung von atomarer Abbildung zu agentenbasiertem Weltmodellieren

Kooperation heterogener wissenschaftlicher Fundamentalmuster

Diffusionsvorlagen: Ein einheitliches Plugin-Rahmenwerk für kontrollierte Diffusion

RADIO-ViPE: Online-Tight-Kopplung der Multi-Modale-Fusion für open-vocabulary semantische SLAM in dynamischen Umgebungen

ClawGym: Ein skalierbares Framework zur Entwicklung effektiver Claw-Agenten

Die TIDE-Wende: Architekturübergreifende Distillation für Diffusions-LLMs

Große Sprachmodelle erkunden durch latentes Distilling

GLM-5V-Turbo: Auf dem Weg zu einem nativen Grundlagenmodell für multimodale Agents

SWE-chat: Interaktionen von Coding Agents mit echten Nutzern in der Wildnis

AdaExplore: Ausfallgetriebene Anpassung und diversitätserhaltende Suche für eine effiziente Kernel-Generierung

Verfeinerung durch Regeneration: Vergrößerung des Änderungsraums verbessert die Bildverfeinerung in vereinheitlichten multimodalen Modellen

AutoResearchBench: Benchmarking von AI Agents bei der komplexen Entdeckung wissenschaftlicher Literatur

Meta-CoT: Verbesserung der Granularität und Generalisierung in der Bildbearbeitung

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Programmierung mit Daten: Testgetriebene Data Engineering für selbstverbessernde LLMs aus rohen Korpora

Rekursive Multi-Agenten-Systeme

Fähigkeitsabruf-Ergänzung für Agentische KI

SketchVLM: Vision-Language-Modelle können Bilder annotieren, um Gedanken zu erklären und Benutzer zu leiten

RSRCC: Ein Benchmark zur regionalen Veränderungsanalyse in der Fernerkundung, der durch abfrageergänztes Best-of-N-Ranking erstellt wurde

LongSpeech: Eine skalierbare Benchmark für Transkription, Übersetzung und Verständnis in langem Sprachat

ClawMark: Ein Lebendiges-Welt-Benchmark für Mehrfach-Turn-, Mehr-Tage-, Multimodale Coworker-Agents

Tuna-2: Pixel-Embeddings schlagen visuelle Encodierer für multimodales Verständnis und Generierung

Sicherheit in Vision-Sprache-Aktions-Systemen: Bedrohungen, Herausforderungen, Bewertungen und Mechanismen

ReVSI: Neuordnung der Bewertung der visuellen räumlichen Intelligenz für eine präzise Beurteilung der 3D-Reasoning-Fähigkeiten von VLMs

Von Fähigkeiten zu Talenten: Organisation heterogener Agents als realweltliches Unternehmen

World-R1: Verstärkung von 3D-Einschränkungen für die Text-zu-Video-Generierung

Videonalyse und -generierung mittels einer semantischen Progress-Funktion

SmartPhotoCrafter: Einheitliche Reasoning-, Generierungs- und Optimierungsprozesse für die automatische fotografische Bildbearbeitung

Kontexte sind niemals lang genug: Strukturiertes Schließen für skalierbares Question Answering über umfangreiche Dokumentensätze hinweg

AgentSearchBench: Ein Benchmark für die Suche durch KI agents in realen Umgebungen

Visuelle Generierung im neuen Zeitalter: Eine Entwicklung von atomarer Abbildung zu agentenbasiertem Weltmodellieren

Kooperation heterogener wissenschaftlicher Fundamentalmuster

Diffusionsvorlagen: Ein einheitliches Plugin-Rahmenwerk für kontrollierte Diffusion

RADIO-ViPE: Online-Tight-Kopplung der Multi-Modale-Fusion für open-vocabulary semantische SLAM in dynamischen Umgebungen

ClawGym: Ein skalierbares Framework zur Entwicklung effektiver Claw-Agenten

Die TIDE-Wende: Architekturübergreifende Distillation für Diffusions-LLMs

Große Sprachmodelle erkunden durch latentes Distilling

GLM-5V-Turbo: Auf dem Weg zu einem nativen Grundlagenmodell für multimodale Agents

SWE-chat: Interaktionen von Coding Agents mit echten Nutzern in der Wildnis

AdaExplore: Ausfallgetriebene Anpassung und diversitätserhaltende Suche für eine effiziente Kernel-Generierung

Verfeinerung durch Regeneration: Vergrößerung des Änderungsraums verbessert die Bildverfeinerung in vereinheitlichten multimodalen Modellen

AutoResearchBench: Benchmarking von AI Agents bei der komplexen Entdeckung wissenschaftlicher Literatur

Meta-CoT: Verbesserung der Granularität und Generalisierung in der Bildbearbeitung

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Programmierung mit Daten: Testgetriebene Data Engineering für selbstverbessernde LLMs aus rohen Korpora

Rekursive Multi-Agenten-Systeme

Fähigkeitsabruf-Ergänzung für Agentische KI

SketchVLM: Vision-Language-Modelle können Bilder annotieren, um Gedanken zu erklären und Benutzer zu leiten

RSRCC: Ein Benchmark zur regionalen Veränderungsanalyse in der Fernerkundung, der durch abfrageergänztes Best-of-N-Ranking erstellt wurde

LongSpeech: Eine skalierbare Benchmark für Transkription, Übersetzung und Verständnis in langem Sprachat

ClawMark: Ein Lebendiges-Welt-Benchmark für Mehrfach-Turn-, Mehr-Tage-, Multimodale Coworker-Agents

Tuna-2: Pixel-Embeddings schlagen visuelle Encodierer für multimodales Verständnis und Generierung

Sicherheit in Vision-Sprache-Aktions-Systemen: Bedrohungen, Herausforderungen, Bewertungen und Mechanismen

ReVSI: Neuordnung der Bewertung der visuellen räumlichen Intelligenz für eine präzise Beurteilung der 3D-Reasoning-Fähigkeiten von VLMs

Von Fähigkeiten zu Talenten: Organisation heterogener Agents als realweltliches Unternehmen

World-R1: Verstärkung von 3D-Einschränkungen für die Text-zu-Video-Generierung

Videonalyse und -generierung mittels einer semantischen Progress-Funktion

SmartPhotoCrafter: Einheitliche Reasoning-, Generierungs- und Optimierungsprozesse für die automatische fotografische Bildbearbeitung

Kontexte sind niemals lang genug: Strukturiertes Schließen für skalierbares Question Answering über umfangreiche Dokumentensätze hinweg

AgentSearchBench: Ein Benchmark für die Suche durch KI agents in realen Umgebungen