HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

Jeu De Données

Shunian Chen, Hejin Huang, Yexin Liu, et al.

Droplet3D : des prioris du sens commun extraits des vidéos facilitent la génération 3D

Droplet3D : des prioris du sens commun extraits des vidéos facilitent la génération 3D

Génération 3D

Compréhension Vidéo

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

A.S.E : Une référence au niveau du dépôt pour évaluer la sécurité dans le code généré par l'IA

Génération De Code

Keke Lian, Bin Wang, Lei Zhang, et al.

EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots

Intelligence Incarnée

Delin Qu, Haoming Song, Qizhi Chen, et al.

R-4B : Inciter la capacité auto-réfléchissante générale dans les MLLMs par recuit bi-mode et apprentissage par renforcement

Jie Jiang, Qi Yang, Bolin Ni, et al.

Enflammer l'écriture créative dans les petits modèles linguistiques : LLM comme juge versus récompenses raffinées par multi-agents

Affinage Supervisé

Modélisation Des Préférences

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

TMUAD : Amélioration des capacités logiques dans les modèles unifiés de détection d'anomalies grâce à une banque de mémoire textuelle

Vision Par Ordinateur

Compréhension D'images

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

Analyse de la dynamique de pensée en chaîne : orientation active ou rationalisation post hoc peu fiable ?

Affinage Supervisé

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

AWorld : Orchestration de la recette d'entraînement pour l'intelligence artificielle agente

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP

Zhenting Wang, Qi Chang, Hemani Patel, et al.

rStar2-Agent : Rapport technique sur le raisonnement agentique

Apprentissage Par Renforcement

Ning Shang, Yifei Liu, Yi Zhu, et al.

Pref-GRPO : GRPO basé sur la récompense de préférence par paires pour un apprentissage par renforcement texte-image stable

Texte Vers Image

Modélisation Des Préférences

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

MobileCLIP2 : Amélioration de l'entraînement renforcé multimodal

Décrivain D'image

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

Collaboration esthétique IA-IA fondée sur une prise de conscience sémiotique explicite et le développement d'une grammaire émergente

Intelligence Artificielle

Traitement Du Langage Naturel

Nicanor I. Moldovan

Fixer son regard au cœur : un jeu de données vidéo multi-vues pour l'estimation du rPPG et des biomarqueurs de santé

Vision Par Ordinateur

Compréhension Vidéo

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

Prédire l'ordre des jetons suivants améliore la modélisation du langage

Entraînement Du Modèle

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

MIDAS : synthèse multimodale interactive d'humains numériques par génération vidéo autoregressive en temps réel

Texte Vers Vidéo

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

Diffusion discrète VLA : Intégrer la diffusion discrète dans le décodage des actions des politiques vision-langage-action

Modèle De Diffusion

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

Modèle vision-langage à récompense autonome par décomposition du raisonnement

Réponse À Des Questions Visuelles

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole

Apprentissage Profond

Neta Glazer, Yael Segal-Feldman, Hilit Segev, et al.

CODA : Coordonner le cerveau et le cervelet pour un agent informatique à cerveau dual utilisant un apprentissage par renforcement découplé

Apprentissage Par Renforcement

Zeyi Sun, Yuhang Cao, Jianze Liang, et al.

WebSight : Une architecture centrée sur la vision pour des agents web robustes

Tanvir Bhathal, Asanshay Gupta

UltraMemV2 : les réseaux mémoire évoluant à 120 milliards de paramètres avec une apprentissage de contexte long supérieur

Zihao Huang, Yu Bao, Qiyang Min, et al.

Rapport technique d'Hermes 4

Ryan Teknium, Roger Jin, Jai Suphavadeeprasit, et al.

OmniHuman-1.5 : Insuffler une pensée active aux avatars par simulation cognitive

Représentation Multimodale

Jianwen Jiang, Weihong Zeng, Zerong Zheng, et al.

VoxHammer : Édition 3D précise et cohérente sans entraînement dans l'espace 3D natif

Génération 3D

Modèle De Diffusion

Lin Li, Zehuan Huang, Haoran Feng, et al.

CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée

Weida Wang, Dongchen Huang, Jiatong Li, et al.

TreePO : Réduire l'écart entre l'optimisation des politiques, l'efficacité et l'efficacité de l'inférence grâce à une modélisation arborescente heuristique

Apprentissage Par Renforcement

Yizhi Li, Qingshui Gu, Zhoufutu Wen, et al.

Nemotron-CC-Math : un jeu de données pré-entraînement de haute qualité pour les mathématiques à l’échelle de 133 milliards de tokens

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, et al.

Compréhension du raisonnement intégré à l'outil

Heng Lin, Zhongwen Xu

Spacer : Vers une inspiration scientifique conçue

Génération De Texte

Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, et al.

Au-delà de la mémorisation : approfondir le raisonnement grâce à la récurrence, à la mémoire et à l'échelle du calcul au moment de l'évaluation

Ivan Rodkin, Daniil Orel, Konstantin Smirnov, et al.

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

Jeu De Données

Shunian Chen, Hejin Huang, Yexin Liu, et al.

Droplet3D : des prioris du sens commun extraits des vidéos facilitent la génération 3D

Droplet3D : des prioris du sens commun extraits des vidéos facilitent la génération 3D

Génération 3D

Compréhension Vidéo

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

A.S.E : Une référence au niveau du dépôt pour évaluer la sécurité dans le code généré par l'IA

Génération De Code

Keke Lian, Bin Wang, Lei Zhang, et al.

EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots

Intelligence Incarnée

Delin Qu, Haoming Song, Qizhi Chen, et al.

R-4B : Inciter la capacité auto-réfléchissante générale dans les MLLMs par recuit bi-mode et apprentissage par renforcement

Jie Jiang, Qi Yang, Bolin Ni, et al.

Enflammer l'écriture créative dans les petits modèles linguistiques : LLM comme juge versus récompenses raffinées par multi-agents

Affinage Supervisé

Modélisation Des Préférences

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

TMUAD : Amélioration des capacités logiques dans les modèles unifiés de détection d'anomalies grâce à une banque de mémoire textuelle

Vision Par Ordinateur

Compréhension D'images

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

Analyse de la dynamique de pensée en chaîne : orientation active ou rationalisation post hoc peu fiable ?

Affinage Supervisé

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

AWorld : Orchestration de la recette d'entraînement pour l'intelligence artificielle agente

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP

Zhenting Wang, Qi Chang, Hemani Patel, et al.

rStar2-Agent : Rapport technique sur le raisonnement agentique

Apprentissage Par Renforcement

Ning Shang, Yifei Liu, Yi Zhu, et al.

Pref-GRPO : GRPO basé sur la récompense de préférence par paires pour un apprentissage par renforcement texte-image stable

Texte Vers Image

Modélisation Des Préférences

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

MobileCLIP2 : Amélioration de l'entraînement renforcé multimodal

Décrivain D'image

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

Collaboration esthétique IA-IA fondée sur une prise de conscience sémiotique explicite et le développement d'une grammaire émergente

Intelligence Artificielle

Traitement Du Langage Naturel

Nicanor I. Moldovan

Fixer son regard au cœur : un jeu de données vidéo multi-vues pour l'estimation du rPPG et des biomarqueurs de santé

Vision Par Ordinateur

Compréhension Vidéo

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

Prédire l'ordre des jetons suivants améliore la modélisation du langage

Entraînement Du Modèle

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

MIDAS : synthèse multimodale interactive d'humains numériques par génération vidéo autoregressive en temps réel

Texte Vers Vidéo

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

Diffusion discrète VLA : Intégrer la diffusion discrète dans le décodage des actions des politiques vision-langage-action

Modèle De Diffusion

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

Modèle vision-langage à récompense autonome par décomposition du raisonnement

Réponse À Des Questions Visuelles

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole

Apprentissage Profond

Neta Glazer, Yael Segal-Feldman, Hilit Segev, et al.

CODA : Coordonner le cerveau et le cervelet pour un agent informatique à cerveau dual utilisant un apprentissage par renforcement découplé

Apprentissage Par Renforcement

Zeyi Sun, Yuhang Cao, Jianze Liang, et al.

WebSight : Une architecture centrée sur la vision pour des agents web robustes

Tanvir Bhathal, Asanshay Gupta

UltraMemV2 : les réseaux mémoire évoluant à 120 milliards de paramètres avec une apprentissage de contexte long supérieur

Zihao Huang, Yu Bao, Qiyang Min, et al.

Rapport technique d'Hermes 4

Ryan Teknium, Roger Jin, Jai Suphavadeeprasit, et al.

OmniHuman-1.5 : Insuffler une pensée active aux avatars par simulation cognitive

Représentation Multimodale

Jianwen Jiang, Weihong Zeng, Zerong Zheng, et al.

VoxHammer : Édition 3D précise et cohérente sans entraînement dans l'espace 3D natif

Génération 3D

Modèle De Diffusion

Lin Li, Zehuan Huang, Haoran Feng, et al.

CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée

Weida Wang, Dongchen Huang, Jiatong Li, et al.

TreePO : Réduire l'écart entre l'optimisation des politiques, l'efficacité et l'efficacité de l'inférence grâce à une modélisation arborescente heuristique

Apprentissage Par Renforcement

Yizhi Li, Qingshui Gu, Zhoufutu Wen, et al.

Nemotron-CC-Math : un jeu de données pré-entraînement de haute qualité pour les mathématiques à l’échelle de 133 milliards de tokens

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, et al.

Compréhension du raisonnement intégré à l'outil

Heng Lin, Zhongwen Xu

Spacer : Vers une inspiration scientifique conçue

Génération De Texte

Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, et al.

Au-delà de la mémorisation : approfondir le raisonnement grâce à la récurrence, à la mémoire et à l'échelle du calcul au moment de l'évaluation

Ivan Rodkin, Daniil Orel, Konstantin Smirnov, et al.

A.S.E : Une référence au niveau du dépôt pour évaluer la sécurité dans le code généré par l'IA

EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots

R-4B : Inciter la capacité auto-réfléchissante générale dans les MLLMs par recuit bi-mode et apprentissage par renforcement

Enflammer l'écriture créative dans les petits modèles linguistiques : LLM comme juge versus récompenses raffinées par multi-agents

TMUAD : Amélioration des capacités logiques dans les modèles unifiés de détection d'anomalies grâce à une banque de mémoire textuelle

Analyse de la dynamique de pensée en chaîne : orientation active ou rationalisation post hoc peu fiable ?

AWorld : Orchestration de la recette d'entraînement pour l'intelligence artificielle agente

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP

rStar2-Agent : Rapport technique sur le raisonnement agentique

Pref-GRPO : GRPO basé sur la récompense de préférence par paires pour un apprentissage par renforcement texte-image stable

MobileCLIP2 : Amélioration de l'entraînement renforcé multimodal

Collaboration esthétique IA-IA fondée sur une prise de conscience sémiotique explicite et le développement d'une grammaire émergente

Fixer son regard au cœur : un jeu de données vidéo multi-vues pour l'estimation du rPPG et des biomarqueurs de santé

Prédire l'ordre des jetons suivants améliore la modélisation du langage

MIDAS : synthèse multimodale interactive d'humains numériques par génération vidéo autoregressive en temps réel

Diffusion discrète VLA : Intégrer la diffusion discrète dans le décodage des actions des politiques vision-langage-action

Modèle vision-langage à récompense autonome par décomposition du raisonnement

Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole

CODA : Coordonner le cerveau et le cervelet pour un agent informatique à cerveau dual utilisant un apprentissage par renforcement découplé

WebSight : Une architecture centrée sur la vision pour des agents web robustes

UltraMemV2 : les réseaux mémoire évoluant à 120 milliards de paramètres avec une apprentissage de contexte long supérieur

Rapport technique d'Hermes 4

OmniHuman-1.5 : Insuffler une pensée active aux avatars par simulation cognitive

VoxHammer : Édition 3D précise et cohérente sans entraînement dans l'espace 3D natif

CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée

TreePO : Réduire l'écart entre l'optimisation des politiques, l'efficacité et l'efficacité de l'inférence grâce à une modélisation arborescente heuristique

Nemotron-CC-Math : un jeu de données pré-entraînement de haute qualité pour les mathématiques à l’échelle de 133 milliards de tokens

Compréhension du raisonnement intégré à l'outil

Spacer : Vers une inspiration scientifique conçue

Au-delà de la mémorisation : approfondir le raisonnement grâce à la récurrence, à la mémoire et à l'échelle du calcul au moment de l'évaluation

A.S.E : Une référence au niveau du dépôt pour évaluer la sécurité dans le code généré par l'IA

EmbodiedOneVision : pré-entraînement entrelacé vision-texte-action pour le contrôle général des robots

R-4B : Inciter la capacité auto-réfléchissante générale dans les MLLMs par recuit bi-mode et apprentissage par renforcement

Enflammer l'écriture créative dans les petits modèles linguistiques : LLM comme juge versus récompenses raffinées par multi-agents

TMUAD : Amélioration des capacités logiques dans les modèles unifiés de détection d'anomalies grâce à une banque de mémoire textuelle

Analyse de la dynamique de pensée en chaîne : orientation active ou rationalisation post hoc peu fiable ?

AWorld : Orchestration de la recette d'entraînement pour l'intelligence artificielle agente

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP

rStar2-Agent : Rapport technique sur le raisonnement agentique

Pref-GRPO : GRPO basé sur la récompense de préférence par paires pour un apprentissage par renforcement texte-image stable

MobileCLIP2 : Amélioration de l'entraînement renforcé multimodal

Collaboration esthétique IA-IA fondée sur une prise de conscience sémiotique explicite et le développement d'une grammaire émergente

Fixer son regard au cœur : un jeu de données vidéo multi-vues pour l'estimation du rPPG et des biomarqueurs de santé

Prédire l'ordre des jetons suivants améliore la modélisation du langage

MIDAS : synthèse multimodale interactive d'humains numériques par génération vidéo autoregressive en temps réel

Diffusion discrète VLA : Intégrer la diffusion discrète dans le décodage des actions des politiques vision-langage-action

Modèle vision-langage à récompense autonome par décomposition du raisonnement

Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole

CODA : Coordonner le cerveau et le cervelet pour un agent informatique à cerveau dual utilisant un apprentissage par renforcement découplé

WebSight : Une architecture centrée sur la vision pour des agents web robustes

UltraMemV2 : les réseaux mémoire évoluant à 120 milliards de paramètres avec une apprentissage de contexte long supérieur

Rapport technique d'Hermes 4

OmniHuman-1.5 : Insuffler une pensée active aux avatars par simulation cognitive

VoxHammer : Édition 3D précise et cohérente sans entraînement dans l'espace 3D natif

CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée

TreePO : Réduire l'écart entre l'optimisation des politiques, l'efficacité et l'efficacité de l'inférence grâce à une modélisation arborescente heuristique

Nemotron-CC-Math : un jeu de données pré-entraînement de haute qualité pour les mathématiques à l’échelle de 133 milliards de tokens

Compréhension du raisonnement intégré à l'outil

Spacer : Vers une inspiration scientifique conçue

Au-delà de la mémorisation : approfondir le raisonnement grâce à la récurrence, à la mémoire et à l'échelle du calcul au moment de l'évaluation