HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

SAM 3D : 3Disez n'importe quoi dans les images

SAM 3D : 3Disez n'importe quoi dans les images

Génération 3D

SAM 3D Team, Xingyu Chen, Fu-Jen Chu, et al.

Video-as-Answer : Prédire et Générer l'Événement Vidéo Suivant avec Joint-GRPO

Video-as-Answer : Prédire et Générer l'Événement Vidéo Suivant avec Joint-GRPO

Génération De Vidéo

Texte Vers Vidéo

Junhao Cheng, Liang Hou, Xin Tao, et al.

Le premier cadre est la place à aller pour la personnalisation du contenu vidéo

Génération De Vidéo

Image Vers Vidéo

Jingxi Chen, Zongxia Li, Zhichao Liu, et al.

L’extension de l’intelligence spatiale grâce aux modèles fondamentaux multimodaux

Représentation Multimodale

Zhongang Cai, Ruisi Wang, Chenyang Gu, et al.

Rapport technique Step-Audio-R1

Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, et al.

V-ReasonBench : Vers un ensemble unifié de benchmarks pour les modèles de génération vidéo

Réponse À Des Questions Visuelles

Yang Luo, Xuanlei Zhao, Baijiong Lin, et al.

Olmo 3

Génération De Code

Allyson Ettinger, Amanda Bertsch, Bailey Kuehl, et al.

Expériences préliminaires d'accélération scientifique avec GPT-5

IA Pour La Science

Sébastien Bubeck, Christian Coester, Ronen Eldan, et al.

Vers une évaluation objective et systématique des biais dans l'intelligence artificielle pour l'imagerie médicale

Imagerie Médicale

Classification D'images

Emma A.M. Stanley, Raissa Souza, Anthony J. Winder, et al.

Qu’est-ce qui fait d’un bon agent de recherche en IA ? Une étude sur le rôle de la diversité de l’idéation

Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, et al.

Segmentation de lésions guidée par instruction pour les radiographies thoraciques à l'aide d'un jeu de données à grande échelle généré automatiquement

Segmentation Sémantique

Geon Choi, Hangyul Yoon, Hyunju Shin, et al.

VisPlay : Modèles Vision-Language auto-évoluant à partir d'images

Apprentissage Par Renforcement

Yicheng He, Chengsong Huang, Zongxia Li, et al.

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

Représentation Multimodale

Cheng Yang, Haiyuan Wan, Yiran Peng, et al.

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

Compréhension Vidéo

Représentation Multimodale

Yifan Jiang, Yueying Wang, Rui Zhao, et al.

Kandinsky 5.0 : Une famille de modèles fondamentaux pour la génération d’images et de vidéos

Texte Vers Image

Image Vers Vidéo

Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.

JAM-2 : conception entièrement computationnelle d'anticorps de type médicament avec un taux de réussite élevé

IA Pour La Science

Apprentissage Profond

PathMind : un cadre Retrieve-Prioritize-Reason pour le raisonnement sur les graphes de connaissances avec les modèles de langage à grande échelle

Génération Augmentée Par La Recherche

Yu Liu, Xixun Lin, Yanmin Shang, et al.

REVISEUR : Au-delà de la réflexion textuelle, vers une raisonnement introspectif multimodal dans la compréhension des vidéos longues

Compréhension Vidéo

Jiaze Li, Hao Yin, Wenhui Tan, et al.

MVI-Bench : Un benchmark complet pour évaluer la robustesse aux entrées visuelles trompeuses dans les LVLM

Réponse À Des Questions Visuelles

Huiyi Chen, Jiawei Peng, Dehai Min, et al.

Les simulateurs mondiaux peuvent-ils raisonner ? Gen-ViRe : Une référence générative pour le raisonnement visuel

Génération De Vidéo

Xinxin Liu, Zhaopan Xu, Kai Wang, et al.

Un Style Vaut Un Code : Déverrouiller la Génération d'Images Code-to-Style avec un Espace de Style Discret

Texte Vers Image

Modèle De Diffusion

Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.

AraLingBench : Un benchmark annoté par des humains pour évaluer les capacités linguistiques arabes des grands modèles linguistiques (LLM)

Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.

Think-at-Hard : itérations latentes sélectives pour améliorer les modèles de langage rationnels

Tianyu Fu, Yichen You, Zekai Chen, et al.

HumanSense : de la perception multimodale aux réponses empathiques et conscientes du contexte par le biais du raisonnement dans les MLLMs

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

CamCloneMaster : Permettre le contrôle de la caméra basé sur une référence pour la génération vidéo

Génération De Vidéo

Image Vers Vidéo

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

EditScore : Déverrouiller le renforcement par apprentissage en ligne pour l'édition d'images grâce à une modélisation de récompense à haute fidélité

Apprentissage Par Renforcement

Modélisation Des Préférences

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

InteractMove : Génération d'interactions homme-objet contrôlée par texte dans des scènes 3D comprenant des objets déplaçables

Intelligence Incarnée

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

WebCoach : Agents web auto-évoluant avec une orientation mémoire trans-session

Genglin Liu, Shijie Geng, Sha Li, et al.

Apprendre à faire confiance : adaptation bayésienne à la fiabilité variable du suggesteur dans la prise de décision séquentielle

Apprentissage Par Renforcement

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank : un paradigme de reranking groupwise piloté par apprentissage par renforcement

Génération Augmentée Par La Recherche

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel : Modèles Multimodaux de Diffusion de Langage de Grande Taille pour l'Édition et la Génération Conscientes de la Pensée

Modèle De Diffusion

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench : Évaluation du raisonnement « think-in-video » pour les modèles génératifs vidéo

Génération De Vidéo

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

SAM 3D : 3Disez n'importe quoi dans les images

SAM 3D : 3Disez n'importe quoi dans les images

Génération 3D

SAM 3D Team, Xingyu Chen, Fu-Jen Chu, et al.

Video-as-Answer : Prédire et Générer l'Événement Vidéo Suivant avec Joint-GRPO

Video-as-Answer : Prédire et Générer l'Événement Vidéo Suivant avec Joint-GRPO

Génération De Vidéo

Texte Vers Vidéo

Junhao Cheng, Liang Hou, Xin Tao, et al.

Le premier cadre est la place à aller pour la personnalisation du contenu vidéo

Génération De Vidéo

Image Vers Vidéo

Jingxi Chen, Zongxia Li, Zhichao Liu, et al.

L’extension de l’intelligence spatiale grâce aux modèles fondamentaux multimodaux

Représentation Multimodale

Zhongang Cai, Ruisi Wang, Chenyang Gu, et al.

Rapport technique Step-Audio-R1

Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, et al.

V-ReasonBench : Vers un ensemble unifié de benchmarks pour les modèles de génération vidéo

Réponse À Des Questions Visuelles

Yang Luo, Xuanlei Zhao, Baijiong Lin, et al.

Olmo 3

Génération De Code

Allyson Ettinger, Amanda Bertsch, Bailey Kuehl, et al.

Expériences préliminaires d'accélération scientifique avec GPT-5

IA Pour La Science

Sébastien Bubeck, Christian Coester, Ronen Eldan, et al.

Vers une évaluation objective et systématique des biais dans l'intelligence artificielle pour l'imagerie médicale

Imagerie Médicale

Classification D'images

Emma A.M. Stanley, Raissa Souza, Anthony J. Winder, et al.

Qu’est-ce qui fait d’un bon agent de recherche en IA ? Une étude sur le rôle de la diversité de l’idéation

Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, et al.

Segmentation de lésions guidée par instruction pour les radiographies thoraciques à l'aide d'un jeu de données à grande échelle généré automatiquement

Segmentation Sémantique

Geon Choi, Hangyul Yoon, Hyunju Shin, et al.

VisPlay : Modèles Vision-Language auto-évoluant à partir d'images

Apprentissage Par Renforcement

Yicheng He, Chengsong Huang, Zongxia Li, et al.

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

Représentation Multimodale

Cheng Yang, Haiyuan Wan, Yiran Peng, et al.

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

Compréhension Vidéo

Représentation Multimodale

Yifan Jiang, Yueying Wang, Rui Zhao, et al.

Kandinsky 5.0 : Une famille de modèles fondamentaux pour la génération d’images et de vidéos

Texte Vers Image

Image Vers Vidéo

Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.

JAM-2 : conception entièrement computationnelle d'anticorps de type médicament avec un taux de réussite élevé

IA Pour La Science

Apprentissage Profond

PathMind : un cadre Retrieve-Prioritize-Reason pour le raisonnement sur les graphes de connaissances avec les modèles de langage à grande échelle

Génération Augmentée Par La Recherche

Yu Liu, Xixun Lin, Yanmin Shang, et al.

REVISEUR : Au-delà de la réflexion textuelle, vers une raisonnement introspectif multimodal dans la compréhension des vidéos longues

Compréhension Vidéo

Jiaze Li, Hao Yin, Wenhui Tan, et al.

MVI-Bench : Un benchmark complet pour évaluer la robustesse aux entrées visuelles trompeuses dans les LVLM

Réponse À Des Questions Visuelles

Huiyi Chen, Jiawei Peng, Dehai Min, et al.

Les simulateurs mondiaux peuvent-ils raisonner ? Gen-ViRe : Une référence générative pour le raisonnement visuel

Génération De Vidéo

Xinxin Liu, Zhaopan Xu, Kai Wang, et al.

Un Style Vaut Un Code : Déverrouiller la Génération d'Images Code-to-Style avec un Espace de Style Discret

Texte Vers Image

Modèle De Diffusion

Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.

AraLingBench : Un benchmark annoté par des humains pour évaluer les capacités linguistiques arabes des grands modèles linguistiques (LLM)

Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.

Think-at-Hard : itérations latentes sélectives pour améliorer les modèles de langage rationnels

Tianyu Fu, Yichen You, Zekai Chen, et al.

HumanSense : de la perception multimodale aux réponses empathiques et conscientes du contexte par le biais du raisonnement dans les MLLMs

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

CamCloneMaster : Permettre le contrôle de la caméra basé sur une référence pour la génération vidéo

Génération De Vidéo

Image Vers Vidéo

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

EditScore : Déverrouiller le renforcement par apprentissage en ligne pour l'édition d'images grâce à une modélisation de récompense à haute fidélité

Apprentissage Par Renforcement

Modélisation Des Préférences

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

InteractMove : Génération d'interactions homme-objet contrôlée par texte dans des scènes 3D comprenant des objets déplaçables

Intelligence Incarnée

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

WebCoach : Agents web auto-évoluant avec une orientation mémoire trans-session

Genglin Liu, Shijie Geng, Sha Li, et al.

Apprendre à faire confiance : adaptation bayésienne à la fiabilité variable du suggesteur dans la prise de décision séquentielle

Apprentissage Par Renforcement

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank : un paradigme de reranking groupwise piloté par apprentissage par renforcement

Génération Augmentée Par La Recherche

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel : Modèles Multimodaux de Diffusion de Langage de Grande Taille pour l'Édition et la Génération Conscientes de la Pensée

Modèle De Diffusion

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench : Évaluation du raisonnement « think-in-video » pour les modèles génératifs vidéo

Génération De Vidéo

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

Le premier cadre est la place à aller pour la personnalisation du contenu vidéo

L’extension de l’intelligence spatiale grâce aux modèles fondamentaux multimodaux

Rapport technique Step-Audio-R1

V-ReasonBench : Vers un ensemble unifié de benchmarks pour les modèles de génération vidéo

Olmo 3

Expériences préliminaires d'accélération scientifique avec GPT-5

Vers une évaluation objective et systématique des biais dans l'intelligence artificielle pour l'imagerie médicale

Qu’est-ce qui fait d’un bon agent de recherche en IA ? Une étude sur le rôle de la diversité de l’idéation

Segmentation de lésions guidée par instruction pour les radiographies thoraciques à l'aide d'un jeu de données à grande échelle généré automatiquement

VisPlay : Modèles Vision-Language auto-évoluant à partir d'images

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

Kandinsky 5.0 : Une famille de modèles fondamentaux pour la génération d’images et de vidéos

JAM-2 : conception entièrement computationnelle d'anticorps de type médicament avec un taux de réussite élevé

PathMind : un cadre Retrieve-Prioritize-Reason pour le raisonnement sur les graphes de connaissances avec les modèles de langage à grande échelle

REVISEUR : Au-delà de la réflexion textuelle, vers une raisonnement introspectif multimodal dans la compréhension des vidéos longues

MVI-Bench : Un benchmark complet pour évaluer la robustesse aux entrées visuelles trompeuses dans les LVLM

Les simulateurs mondiaux peuvent-ils raisonner ? Gen-ViRe : Une référence générative pour le raisonnement visuel

Un Style Vaut Un Code : Déverrouiller la Génération d'Images Code-to-Style avec un Espace de Style Discret

AraLingBench : Un benchmark annoté par des humains pour évaluer les capacités linguistiques arabes des grands modèles linguistiques (LLM)

Think-at-Hard : itérations latentes sélectives pour améliorer les modèles de langage rationnels

HumanSense : de la perception multimodale aux réponses empathiques et conscientes du contexte par le biais du raisonnement dans les MLLMs

CamCloneMaster : Permettre le contrôle de la caméra basé sur une référence pour la génération vidéo

EditScore : Déverrouiller le renforcement par apprentissage en ligne pour l'édition d'images grâce à une modélisation de récompense à haute fidélité

InteractMove : Génération d'interactions homme-objet contrôlée par texte dans des scènes 3D comprenant des objets déplaçables

WebCoach : Agents web auto-évoluant avec une orientation mémoire trans-session

Apprendre à faire confiance : adaptation bayésienne à la fiabilité variable du suggesteur dans la prise de décision séquentielle

GroupRank : un paradigme de reranking groupwise piloté par apprentissage par renforcement

MMaDA-Parallel : Modèles Multimodaux de Diffusion de Langage de Grande Taille pour l'Édition et la Génération Conscientes de la Pensée

TiViBench : Évaluation du raisonnement « think-in-video » pour les modèles génératifs vidéo

Le premier cadre est la place à aller pour la personnalisation du contenu vidéo

L’extension de l’intelligence spatiale grâce aux modèles fondamentaux multimodaux

Rapport technique Step-Audio-R1

V-ReasonBench : Vers un ensemble unifié de benchmarks pour les modèles de génération vidéo

Olmo 3

Expériences préliminaires d'accélération scientifique avec GPT-5

Vers une évaluation objective et systématique des biais dans l'intelligence artificielle pour l'imagerie médicale

Qu’est-ce qui fait d’un bon agent de recherche en IA ? Une étude sur le rôle de la diversité de l’idéation

Segmentation de lésions guidée par instruction pour les radiographies thoraciques à l'aide d'un jeu de données à grande échelle généré automatiquement

VisPlay : Modèles Vision-Language auto-évoluant à partir d'images

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

VIDEOP2R : Compréhension vidéo de la perception au raisonnement

Kandinsky 5.0 : Une famille de modèles fondamentaux pour la génération d’images et de vidéos

JAM-2 : conception entièrement computationnelle d'anticorps de type médicament avec un taux de réussite élevé

PathMind : un cadre Retrieve-Prioritize-Reason pour le raisonnement sur les graphes de connaissances avec les modèles de langage à grande échelle

REVISEUR : Au-delà de la réflexion textuelle, vers une raisonnement introspectif multimodal dans la compréhension des vidéos longues

MVI-Bench : Un benchmark complet pour évaluer la robustesse aux entrées visuelles trompeuses dans les LVLM

Les simulateurs mondiaux peuvent-ils raisonner ? Gen-ViRe : Une référence générative pour le raisonnement visuel

Un Style Vaut Un Code : Déverrouiller la Génération d'Images Code-to-Style avec un Espace de Style Discret

AraLingBench : Un benchmark annoté par des humains pour évaluer les capacités linguistiques arabes des grands modèles linguistiques (LLM)

Think-at-Hard : itérations latentes sélectives pour améliorer les modèles de langage rationnels

HumanSense : de la perception multimodale aux réponses empathiques et conscientes du contexte par le biais du raisonnement dans les MLLMs

CamCloneMaster : Permettre le contrôle de la caméra basé sur une référence pour la génération vidéo

EditScore : Déverrouiller le renforcement par apprentissage en ligne pour l'édition d'images grâce à une modélisation de récompense à haute fidélité

InteractMove : Génération d'interactions homme-objet contrôlée par texte dans des scènes 3D comprenant des objets déplaçables

WebCoach : Agents web auto-évoluant avec une orientation mémoire trans-session

Apprendre à faire confiance : adaptation bayésienne à la fiabilité variable du suggesteur dans la prise de décision séquentielle

GroupRank : un paradigme de reranking groupwise piloté par apprentissage par renforcement

MMaDA-Parallel : Modèles Multimodaux de Diffusion de Langage de Grande Taille pour l'Édition et la Génération Conscientes de la Pensée

TiViBench : Évaluation du raisonnement « think-in-video » pour les modèles génératifs vidéo