HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

ExoActor : Génération vidéo exocentrique comme contrôle humanoid interactif généralisable

ExoActor : Génération vidéo exocentrique comme contrôle humanoid interactif généralisable

Génération De Vidéo

Intelligence Incarnée

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Distillation de politiques co-évoluantes

Distillation de politiques co-évoluantes

Entraînement Du Modèle

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Génération visuelle à l’ère nouvelle : une évolution de la cartographie atomique à la modélisation du monde par agents

Génération D'images

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Collaboration de modèles de fondation scientifiques hétérogènes

IA Pour La Science

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Modèles de diffusion : Un cadre d’intégration unifié pour la diffusion contrôlable

Modèle De Diffusion

Génération D'images

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE : Fusion multimodale en ligne et fortement couplée pour le SLAM sémantique à vocabulaire ouvert dans des environnements dynamiques

Représentation Multimodale

Vision Machine 3D

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym : Un cadre évolutif pour construire des agents Griffes efficaces

Fei Bai, Huatong Song, Shuang Sun, et al.

Transformer le TIDE : Distillation inter-architecture pour les grands modèles linguistiques basés sur des Diffusions

Modèle De Diffusion

Entraînement Du Modèle

Gongbo Zhang, Wen Wang, Ye Tian, et al.

Les grands modèles linguistiques explorent par distillation latente

Génération De Texte

Yuanhao Zeng, Ao Lu, Lufei Li, et al.

GLM-5V-Turbo : vers un modèle de fondation natif pour les agents multimodaux

V Team, Wenyi Hong, Xiaotao Gu, et al.

SWE-chat : Interactions entre agents de codage et utilisateurs réels dans la nature

Génération De Code

Joachim Baumann, Vishakh Padmakumar, Xiang Li, et al.

AdaExplore : Adaptation pilotée par les échecs et recherche préservant la diversité pour la génération efficace de noyaux

Génération De Code

Weihua Du, Jingming Zhuo, Yixin Dong, et al.

Affinement par régénération : L'élargissement de l'espace de modification améliore l'affinement d'image dans les modèles multimodaux unifiés

Texte Vers Image

Génération D'images

Jiayi Guo, Linqing Wang, Jiangshan Wang, et al.

AutoResearchBench : Évaluation des agents IA dans la découverte complexe de la littérature scientifique

Lei Xiong, Kun Luo, Ziyi Xia, et al.

Meta-CoT : Amélioration de la granularité et de la généralisation dans l'édition d'images

Compréhension D'images

Réponse À Des Questions Visuelles

Shiyi Zhang, Yiji Cheng, Tiankai Hang, et al.

DV-World : Évaluation des agents de visualisation de données dans des scénarios du monde réel

Représentation Multimodale

Jinxiang Meng, Shaoping Huang, Fangyu Lei, et al.

Programmation avec des données : Ingénierie des données axée sur les tests pour des LLM auto-améliorants à partir de corpus bruts

Affinage Supervisé

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

Systèmes multi-agents récursifs

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

Récupération de compétences pour l'IA Agentique

Génération Augmentée Par La Recherche

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM : Les modèles de langage visuel peuvent annoter des images pour expliquer les pensées et guider les utilisateurs

Réponse À Des Questions Visuelles

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC : Un benchmark pour la compréhension des changements régionaux en télédétection construit par un classement de type Best-of-N augmenté par récupération (Retrieval-Augmented)

Réponse À Des Questions Visuelles

Génération Augmentée Par La Recherche

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech : Un benchmark évolutif pour la transcription, la traduction et la compréhension de la parole longue

Traitement Audio Et Vocal

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark : un benchmark du monde vivant pour les agents collaborateurs multimodaux sur plusieurs tours et plusieurs jours

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2 : Les embeddings de pixels surpassent les encodeurs visuels pour la compréhension et la génération multimodales

Génération D'images

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

Sécurité Vision-Language-Action : Menaces, Défis, Évaluations et Mécanismes

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI : Rétablir l’évaluation de l’intelligence spatiale visuelle pour une évaluation précise du raisonnement 3D des VLM

Réponse À Des Questions Visuelles

Compréhension Vidéo

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

De la compétence au talent : organiser des agents hétérogènes comme une entreprise dans le monde réel

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1 : Renforcement des contraintes 3D pour la génération de vidéos à partir de texte

Texte Vers Vidéo

Génération De Vidéo

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

Analyse et génération de vidéos via une fonction de progression sémantique

Génération De Vidéo

Traitement Vidéo

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter : Raisonnement, génération et optimisation unifiés pour l'édition automatique d'images photographiques

Compréhension D'images

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

Les contextes ne sont jamais assez longs : un raisonnement structuré pour une question-réponse scalable sur des ensembles de documents longs

Réponse Aux Questions Intelligente

Compréhension De Document

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench : un benchmark pour la recherche par AI agent en milieu réel

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

ExoActor : Génération vidéo exocentrique comme contrôle humanoid interactif généralisable

ExoActor : Génération vidéo exocentrique comme contrôle humanoid interactif généralisable

Génération De Vidéo

Intelligence Incarnée

Yanghao Zhou, Jingyu Ma, Yibo Peng, et al.

Distillation de politiques co-évoluantes

Distillation de politiques co-évoluantes

Entraînement Du Modèle

Naibin Gu, Chenxu Yang, Qingyi Si, et al.

Génération visuelle à l’ère nouvelle : une évolution de la cartographie atomique à la modélisation du monde par agents

Génération D'images

Keming Wu, Zuhao Yang, Kaichen Zhang, et al.

Collaboration de modèles de fondation scientifiques hétérogènes

IA Pour La Science

Zihao Li, Jiaru Zou, Feihao Fang, et al.

Modèles de diffusion : Un cadre d’intégration unifié pour la diffusion contrôlable

Modèle De Diffusion

Génération D'images

Zhongjie Duan, Hong Zhang, Yingda Chen

RADIO-ViPE : Fusion multimodale en ligne et fortement couplée pour le SLAM sémantique à vocabulaire ouvert dans des environnements dynamiques

Représentation Multimodale

Vision Machine 3D

Zaid Nasser, Mikhail Iumanov, Tianhao Li, et al.

ClawGym : Un cadre évolutif pour construire des agents Griffes efficaces

Fei Bai, Huatong Song, Shuang Sun, et al.

Transformer le TIDE : Distillation inter-architecture pour les grands modèles linguistiques basés sur des Diffusions

Modèle De Diffusion

Entraînement Du Modèle

Gongbo Zhang, Wen Wang, Ye Tian, et al.

Les grands modèles linguistiques explorent par distillation latente

Génération De Texte

Yuanhao Zeng, Ao Lu, Lufei Li, et al.

GLM-5V-Turbo : vers un modèle de fondation natif pour les agents multimodaux

V Team, Wenyi Hong, Xiaotao Gu, et al.

SWE-chat : Interactions entre agents de codage et utilisateurs réels dans la nature

Génération De Code

Joachim Baumann, Vishakh Padmakumar, Xiang Li, et al.

AdaExplore : Adaptation pilotée par les échecs et recherche préservant la diversité pour la génération efficace de noyaux

Génération De Code

Weihua Du, Jingming Zhuo, Yixin Dong, et al.

Affinement par régénération : L'élargissement de l'espace de modification améliore l'affinement d'image dans les modèles multimodaux unifiés

Texte Vers Image

Génération D'images

Jiayi Guo, Linqing Wang, Jiangshan Wang, et al.

AutoResearchBench : Évaluation des agents IA dans la découverte complexe de la littérature scientifique

Lei Xiong, Kun Luo, Ziyi Xia, et al.

Meta-CoT : Amélioration de la granularité et de la généralisation dans l'édition d'images

Compréhension D'images

Réponse À Des Questions Visuelles

Shiyi Zhang, Yiji Cheng, Tiankai Hang, et al.

DV-World : Évaluation des agents de visualisation de données dans des scénarios du monde réel

Représentation Multimodale

Jinxiang Meng, Shaoping Huang, Fangyu Lei, et al.

Programmation avec des données : Ingénierie des données axée sur les tests pour des LLM auto-améliorants à partir de corpus bruts

Affinage Supervisé

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

Systèmes multi-agents récursifs

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

Récupération de compétences pour l'IA Agentique

Génération Augmentée Par La Recherche

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM : Les modèles de langage visuel peuvent annoter des images pour expliquer les pensées et guider les utilisateurs

Réponse À Des Questions Visuelles

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC : Un benchmark pour la compréhension des changements régionaux en télédétection construit par un classement de type Best-of-N augmenté par récupération (Retrieval-Augmented)

Réponse À Des Questions Visuelles

Génération Augmentée Par La Recherche

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech : Un benchmark évolutif pour la transcription, la traduction et la compréhension de la parole longue

Traitement Audio Et Vocal

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark : un benchmark du monde vivant pour les agents collaborateurs multimodaux sur plusieurs tours et plusieurs jours

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2 : Les embeddings de pixels surpassent les encodeurs visuels pour la compréhension et la génération multimodales

Génération D'images

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

Sécurité Vision-Language-Action : Menaces, Défis, Évaluations et Mécanismes

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI : Rétablir l’évaluation de l’intelligence spatiale visuelle pour une évaluation précise du raisonnement 3D des VLM

Réponse À Des Questions Visuelles

Compréhension Vidéo

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

De la compétence au talent : organiser des agents hétérogènes comme une entreprise dans le monde réel

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1 : Renforcement des contraintes 3D pour la génération de vidéos à partir de texte

Texte Vers Vidéo

Génération De Vidéo

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

Analyse et génération de vidéos via une fonction de progression sémantique

Génération De Vidéo

Traitement Vidéo

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter : Raisonnement, génération et optimisation unifiés pour l'édition automatique d'images photographiques

Compréhension D'images

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

Les contextes ne sont jamais assez longs : un raisonnement structuré pour une question-réponse scalable sur des ensembles de documents longs

Réponse Aux Questions Intelligente

Compréhension De Document

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench : un benchmark pour la recherche par AI agent en milieu réel

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

Génération visuelle à l’ère nouvelle : une évolution de la cartographie atomique à la modélisation du monde par agents

Collaboration de modèles de fondation scientifiques hétérogènes

Modèles de diffusion : Un cadre d’intégration unifié pour la diffusion contrôlable

RADIO-ViPE : Fusion multimodale en ligne et fortement couplée pour le SLAM sémantique à vocabulaire ouvert dans des environnements dynamiques

ClawGym : Un cadre évolutif pour construire des agents Griffes efficaces

Transformer le TIDE : Distillation inter-architecture pour les grands modèles linguistiques basés sur des Diffusions

Les grands modèles linguistiques explorent par distillation latente

GLM-5V-Turbo : vers un modèle de fondation natif pour les agents multimodaux

SWE-chat : Interactions entre agents de codage et utilisateurs réels dans la nature

AdaExplore : Adaptation pilotée par les échecs et recherche préservant la diversité pour la génération efficace de noyaux

Affinement par régénération : L'élargissement de l'espace de modification améliore l'affinement d'image dans les modèles multimodaux unifiés

AutoResearchBench : Évaluation des agents IA dans la découverte complexe de la littérature scientifique

Meta-CoT : Amélioration de la granularité et de la généralisation dans l'édition d'images

DV-World : Évaluation des agents de visualisation de données dans des scénarios du monde réel

Programmation avec des données : Ingénierie des données axée sur les tests pour des LLM auto-améliorants à partir de corpus bruts

Systèmes multi-agents récursifs

Récupération de compétences pour l'IA Agentique

SketchVLM : Les modèles de langage visuel peuvent annoter des images pour expliquer les pensées et guider les utilisateurs

RSRCC : Un benchmark pour la compréhension des changements régionaux en télédétection construit par un classement de type Best-of-N augmenté par récupération (Retrieval-Augmented)

LongSpeech : Un benchmark évolutif pour la transcription, la traduction et la compréhension de la parole longue

ClawMark : un benchmark du monde vivant pour les agents collaborateurs multimodaux sur plusieurs tours et plusieurs jours

Tuna-2 : Les embeddings de pixels surpassent les encodeurs visuels pour la compréhension et la génération multimodales

Sécurité Vision-Language-Action : Menaces, Défis, Évaluations et Mécanismes

ReVSI : Rétablir l’évaluation de l’intelligence spatiale visuelle pour une évaluation précise du raisonnement 3D des VLM

De la compétence au talent : organiser des agents hétérogènes comme une entreprise dans le monde réel

World-R1 : Renforcement des contraintes 3D pour la génération de vidéos à partir de texte

Analyse et génération de vidéos via une fonction de progression sémantique

SmartPhotoCrafter : Raisonnement, génération et optimisation unifiés pour l'édition automatique d'images photographiques

Les contextes ne sont jamais assez longs : un raisonnement structuré pour une question-réponse scalable sur des ensembles de documents longs

AgentSearchBench : un benchmark pour la recherche par AI agent en milieu réel

Génération visuelle à l’ère nouvelle : une évolution de la cartographie atomique à la modélisation du monde par agents

Collaboration de modèles de fondation scientifiques hétérogènes

Modèles de diffusion : Un cadre d’intégration unifié pour la diffusion contrôlable

RADIO-ViPE : Fusion multimodale en ligne et fortement couplée pour le SLAM sémantique à vocabulaire ouvert dans des environnements dynamiques

ClawGym : Un cadre évolutif pour construire des agents Griffes efficaces

Transformer le TIDE : Distillation inter-architecture pour les grands modèles linguistiques basés sur des Diffusions

Les grands modèles linguistiques explorent par distillation latente

GLM-5V-Turbo : vers un modèle de fondation natif pour les agents multimodaux

SWE-chat : Interactions entre agents de codage et utilisateurs réels dans la nature

AdaExplore : Adaptation pilotée par les échecs et recherche préservant la diversité pour la génération efficace de noyaux

Affinement par régénération : L'élargissement de l'espace de modification améliore l'affinement d'image dans les modèles multimodaux unifiés

AutoResearchBench : Évaluation des agents IA dans la découverte complexe de la littérature scientifique

Meta-CoT : Amélioration de la granularité et de la généralisation dans l'édition d'images

DV-World : Évaluation des agents de visualisation de données dans des scénarios du monde réel

Programmation avec des données : Ingénierie des données axée sur les tests pour des LLM auto-améliorants à partir de corpus bruts

Systèmes multi-agents récursifs

Récupération de compétences pour l'IA Agentique

SketchVLM : Les modèles de langage visuel peuvent annoter des images pour expliquer les pensées et guider les utilisateurs

RSRCC : Un benchmark pour la compréhension des changements régionaux en télédétection construit par un classement de type Best-of-N augmenté par récupération (Retrieval-Augmented)

LongSpeech : Un benchmark évolutif pour la transcription, la traduction et la compréhension de la parole longue

ClawMark : un benchmark du monde vivant pour les agents collaborateurs multimodaux sur plusieurs tours et plusieurs jours

Tuna-2 : Les embeddings de pixels surpassent les encodeurs visuels pour la compréhension et la génération multimodales

Sécurité Vision-Language-Action : Menaces, Défis, Évaluations et Mécanismes

ReVSI : Rétablir l’évaluation de l’intelligence spatiale visuelle pour une évaluation précise du raisonnement 3D des VLM

De la compétence au talent : organiser des agents hétérogènes comme une entreprise dans le monde réel

World-R1 : Renforcement des contraintes 3D pour la génération de vidéos à partir de texte

Analyse et génération de vidéos via une fonction de progression sémantique

SmartPhotoCrafter : Raisonnement, génération et optimisation unifiés pour l'édition automatique d'images photographiques

Les contextes ne sont jamais assez longs : un raisonnement structuré pour une question-réponse scalable sur des ensembles de documents longs

AgentSearchBench : un benchmark pour la recherche par AI agent en milieu réel