HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI

Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI

Compréhension D'images

Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, et al.

Seed-Prover : raisonnement profond et large pour la démonstration automatique de théorèmes

Seed-Prover : raisonnement profond et large pour la démonstration automatique de théorèmes

Luoxin Chen, Jinming Gu, Liankai Huang, et al.

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

Nicholas Andrews, Matthew Wiesner, Sanjeev Khudanpur, et al.

Sélection de ReLU locale versus globale : la MILP partielle fait son retour pour la vérification des réseaux de neurones profonds

Apprentissage Profond

Réseau De Neurones Convolutif

Yuke Liao, Blaise Genest, Kuldeep Meel, et al.

CoT-Self-Instruct : Construction de promts synthétiques de haute qualité pour les tâches de raisonnement et non de raisonnement

Ping Yu, Jack Lanchantin, Tianlu Wang, et al.

Vers des expressions et raisonnements omnimodaux dans la segmentation audio-visuelle par référence

Compréhension Vidéo

Kaining Ying, Henghui Ding, Guanquan Jie, et al.

Adaptation de détecteurs de véhicules pour des images aériennes à des domaines inédits avec une supervision faible

Détection D'objets

Télédétection

Xiao Fang, Minhyek Jeon, Zheyang Qin, et al.

VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé

Apprentissage Par Renforcement

Ruifeng Yuan, Chenghao Xiao, Sicong Leng, et al.

Falcon-H1 : une famille de modèles linguistiques à tête hybride redéfinissant l'efficacité et les performances

Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, et al.

BANG : Division de ressources 3D par dynamique éclatée générative

Génération 3D

Longwen Zhang, Qixuan Zhang, Haoran Jiang, et al.

ScreenCoder : Progresser dans la génération visuelle vers le code pour l'automatisation du front-end grâce à des agents multimodaux modulaires

Génération De Code

Yilei Jiang, Yaozhi Zheng, Yuxuan Wan, et al.

MIRepNet : Une chaîne de traitement et un modèle fondamental pour la classification de l’imagerie motrice à partir d’EEG

Apprentissage Profond

Réseau De Neurones Convolutif

Dingkun Liu, Zhu Chen, Jingwei Luo, et al.

ChemDFM-R : Un raisonneur chimique basé sur un modèle linguistique grand (LLM) amélioré par des connaissances chimiques atomisées

Zihan Zhao, Bo Chen, Ziping Wan, et al.

X-Omni : Le apprentissage par renforcement rend aux modèles de génération d’images autoregressifs discrets leur grandeur d’antan

Génération D'images

Modèle De Diffusion

Zigang Geng, Yibing Wang, Yeyao Ma, et al.

HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels

Génération 3D

HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, et al.

AlphaEarth Foundations : un modèle de champ d'embeddings pour une cartographie globale précise et efficace à partir de données étiquetées éparses

IA Pour La Science

Télédétection

Christopher F. Brown, Michal R. Kazmierski, Valerie J. Pasquarella, et al.

Vers une prévision à longue portée de l'ENSO à l'aide d'un modèle d'apprentissage profond explicite

Apprentissage Profond

Réseau De Neurones Convolutif

Qi Chen, Yinghao Cui, Guobin Hong, et al.

OmniArch : Construction d'un modèle fondamental pour le calcul scientifique

IA Pour La Science

Tianyu Chen, Haoyi Zhou, Ying Li, et al.

UI-AGILE : Approfondir les agents d'interface utilisateur avec un apprentissage par renforcement efficace et une ancrage précis au moment de l'inférence

Affinage Supervisé

Shuquan Lian, Yuhang Wu, Jia Ma, et al.

DualSG : Un cadre de prévision des séries temporelles multivariées à guide sémantique explicite à deux flux

Traitement Du Langage Naturel

Kuiye Ding, Fanda Fan, Yao Wang, et al.

Lorsque les tokens parlent trop : Une revue de la compression de tokens à longue portée multimodaux dans les images, vidéos et audios

Vision Par Ordinateur

Kele Shao, Keda Tao, Kejia Zhang, et al.

SmallThinker : Une famille de modèles de langage à grande échelle efficaces entraînés nativement pour le déploiement local

Yixin Song, Zhenliang Xue, Dongliang Wei, et al.

Reconstruction de l'intelligence spatiale 4D : Un état de l'art

Vision Par Ordinateur

Compréhension Vidéo

Yukang Cao, Jiahao Lu, Zhisheng Huang, et al.

Rep-MTL : Déverrouiller le pouvoir de la salience des tâches au niveau de la représentation pour l'apprentissage multi-tâches

Apprentissage Multi-tâches

Réseaux De Neurones

Zedong Wang, Siyuan Li, Dan Xu

ARC-Hunyuan-Video-7B : Compréhension structurée des vidéos du monde réel en courte durée

Compréhension Vidéo

Video Captioning

Yuying Ge, Yixiao Ge, Chen Li, et al.

Optimisation de politique renforcée agente

Apprentissage Par Renforcement

Guanting Dong, Hangyu Mao, Kai Ma, et al.

Spécification de correction auto : atténuer le piratage de récompense en contexte par une révision au moment des tests

Víctor Gallego

PRIX : Apprendre à planifier à partir de pixels bruts pour le pilotage autonome en boucle complète

Conduite Autonome

Vision Par Ordinateur

Maciej K. Wozniak, Lianhang Liu, Yixi Cai, et al.

Chat avec l'IA : La tournure surprenante de la communication vidéo en temps réel passant d'un humain à une IA

Compréhension Vidéo

Jiangkai Wu, Zhiyuan Ren, Liming Liu, et al.

MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Xuehui Wang, Zhenyu Wu, JingJing Xie, et al.

Recherche profonde avec diffusion en temps de test

Génération Augmentée Par La Recherche

Rujun Han, Yanfei Chen, Zoey CuiZhu, et al.

La géométrie de la quantification des LLM : GPTQ comme l'algorithme du plan le plus proche de Babai

Jiale Chen, Torsten Hoefler, Dan Alistarh

Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI

Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI

Compréhension D'images

Miaosen Zhang, Ziqiang Xu, Jialiang Zhu, et al.

Seed-Prover : raisonnement profond et large pour la démonstration automatique de théorèmes

Seed-Prover : raisonnement profond et large pour la démonstration automatique de théorèmes

Luoxin Chen, Jinming Gu, Liankai Huang, et al.

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

Nicholas Andrews, Matthew Wiesner, Sanjeev Khudanpur, et al.

Sélection de ReLU locale versus globale : la MILP partielle fait son retour pour la vérification des réseaux de neurones profonds

Apprentissage Profond

Réseau De Neurones Convolutif

Yuke Liao, Blaise Genest, Kuldeep Meel, et al.

CoT-Self-Instruct : Construction de promts synthétiques de haute qualité pour les tâches de raisonnement et non de raisonnement

Ping Yu, Jack Lanchantin, Tianlu Wang, et al.

Vers des expressions et raisonnements omnimodaux dans la segmentation audio-visuelle par référence

Compréhension Vidéo

Kaining Ying, Henghui Ding, Guanquan Jie, et al.

Adaptation de détecteurs de véhicules pour des images aériennes à des domaines inédits avec une supervision faible

Détection D'objets

Télédétection

Xiao Fang, Minhyek Jeon, Zheyang Qin, et al.

VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé

Apprentissage Par Renforcement

Ruifeng Yuan, Chenghao Xiao, Sicong Leng, et al.

Falcon-H1 : une famille de modèles linguistiques à tête hybride redéfinissant l'efficacité et les performances

Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, et al.

BANG : Division de ressources 3D par dynamique éclatée générative

Génération 3D

Longwen Zhang, Qixuan Zhang, Haoran Jiang, et al.

ScreenCoder : Progresser dans la génération visuelle vers le code pour l'automatisation du front-end grâce à des agents multimodaux modulaires

Génération De Code

Yilei Jiang, Yaozhi Zheng, Yuxuan Wan, et al.

MIRepNet : Une chaîne de traitement et un modèle fondamental pour la classification de l’imagerie motrice à partir d’EEG

Apprentissage Profond

Réseau De Neurones Convolutif

Dingkun Liu, Zhu Chen, Jingwei Luo, et al.

ChemDFM-R : Un raisonneur chimique basé sur un modèle linguistique grand (LLM) amélioré par des connaissances chimiques atomisées

Zihan Zhao, Bo Chen, Ziping Wan, et al.

X-Omni : Le apprentissage par renforcement rend aux modèles de génération d’images autoregressifs discrets leur grandeur d’antan

Génération D'images

Modèle De Diffusion

Zigang Geng, Yibing Wang, Yeyao Ma, et al.

HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels

Génération 3D

HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, et al.

AlphaEarth Foundations : un modèle de champ d'embeddings pour une cartographie globale précise et efficace à partir de données étiquetées éparses

IA Pour La Science

Télédétection

Christopher F. Brown, Michal R. Kazmierski, Valerie J. Pasquarella, et al.

Vers une prévision à longue portée de l'ENSO à l'aide d'un modèle d'apprentissage profond explicite

Apprentissage Profond

Réseau De Neurones Convolutif

Qi Chen, Yinghao Cui, Guobin Hong, et al.

OmniArch : Construction d'un modèle fondamental pour le calcul scientifique

IA Pour La Science

Tianyu Chen, Haoyi Zhou, Ying Li, et al.

UI-AGILE : Approfondir les agents d'interface utilisateur avec un apprentissage par renforcement efficace et une ancrage précis au moment de l'inférence

Affinage Supervisé

Shuquan Lian, Yuhang Wu, Jia Ma, et al.

DualSG : Un cadre de prévision des séries temporelles multivariées à guide sémantique explicite à deux flux

Traitement Du Langage Naturel

Kuiye Ding, Fanda Fan, Yao Wang, et al.

Lorsque les tokens parlent trop : Une revue de la compression de tokens à longue portée multimodaux dans les images, vidéos et audios

Vision Par Ordinateur

Kele Shao, Keda Tao, Kejia Zhang, et al.

SmallThinker : Une famille de modèles de langage à grande échelle efficaces entraînés nativement pour le déploiement local

Yixin Song, Zhenliang Xue, Dongliang Wei, et al.

Reconstruction de l'intelligence spatiale 4D : Un état de l'art

Vision Par Ordinateur

Compréhension Vidéo

Yukang Cao, Jiahao Lu, Zhisheng Huang, et al.

Rep-MTL : Déverrouiller le pouvoir de la salience des tâches au niveau de la représentation pour l'apprentissage multi-tâches

Apprentissage Multi-tâches

Réseaux De Neurones

Zedong Wang, Siyuan Li, Dan Xu

ARC-Hunyuan-Video-7B : Compréhension structurée des vidéos du monde réel en courte durée

Compréhension Vidéo

Video Captioning

Yuying Ge, Yixiao Ge, Chen Li, et al.

Optimisation de politique renforcée agente

Apprentissage Par Renforcement

Guanting Dong, Hangyu Mao, Kai Ma, et al.

Spécification de correction auto : atténuer le piratage de récompense en contexte par une révision au moment des tests

Víctor Gallego

PRIX : Apprendre à planifier à partir de pixels bruts pour le pilotage autonome en boucle complète

Conduite Autonome

Vision Par Ordinateur

Maciej K. Wozniak, Lianhang Liu, Yixi Cai, et al.

Chat avec l'IA : La tournure surprenante de la communication vidéo en temps réel passant d'un humain à une IA

Compréhension Vidéo

Jiangkai Wu, Zhiyuan Ren, Liming Liu, et al.

MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Xuehui Wang, Zhenyu Wu, JingJing Xie, et al.

Recherche profonde avec diffusion en temps de test

Génération Augmentée Par La Recherche

Rujun Han, Yanfei Chen, Zoey CuiZhu, et al.

La géométrie de la quantification des LLM : GPTQ comme l'algorithme du plan le plus proche de Babai

Jiale Chen, Torsten Hoefler, Dan Alistarh

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

Sélection de ReLU locale versus globale : la MILP partielle fait son retour pour la vérification des réseaux de neurones profonds

CoT-Self-Instruct : Construction de promts synthétiques de haute qualité pour les tâches de raisonnement et non de raisonnement

Vers des expressions et raisonnements omnimodaux dans la segmentation audio-visuelle par référence

Adaptation de détecteurs de véhicules pour des images aériennes à des domaines inédits avec une supervision faible

VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé

Falcon-H1 : une famille de modèles linguistiques à tête hybride redéfinissant l'efficacité et les performances

BANG : Division de ressources 3D par dynamique éclatée générative

ScreenCoder : Progresser dans la génération visuelle vers le code pour l'automatisation du front-end grâce à des agents multimodaux modulaires

MIRepNet : Une chaîne de traitement et un modèle fondamental pour la classification de l’imagerie motrice à partir d’EEG

ChemDFM-R : Un raisonneur chimique basé sur un modèle linguistique grand (LLM) amélioré par des connaissances chimiques atomisées

X-Omni : Le apprentissage par renforcement rend aux modèles de génération d’images autoregressifs discrets leur grandeur d’antan

HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels

AlphaEarth Foundations : un modèle de champ d'embeddings pour une cartographie globale précise et efficace à partir de données étiquetées éparses

Vers une prévision à longue portée de l'ENSO à l'aide d'un modèle d'apprentissage profond explicite

OmniArch : Construction d'un modèle fondamental pour le calcul scientifique

UI-AGILE : Approfondir les agents d'interface utilisateur avec un apprentissage par renforcement efficace et une ancrage précis au moment de l'inférence

DualSG : Un cadre de prévision des séries temporelles multivariées à guide sémantique explicite à deux flux

Lorsque les tokens parlent trop : Une revue de la compression de tokens à longue portée multimodaux dans les images, vidéos et audios

SmallThinker : Une famille de modèles de langage à grande échelle efficaces entraînés nativement pour le déploiement local

Reconstruction de l'intelligence spatiale 4D : Un état de l'art

Rep-MTL : Déverrouiller le pouvoir de la salience des tâches au niveau de la représentation pour l'apprentissage multi-tâches

ARC-Hunyuan-Video-7B : Compréhension structurée des vidéos du monde réel en courte durée

Optimisation de politique renforcée agente

Spécification de correction auto : atténuer le piratage de récompense en contexte par une révision au moment des tests

PRIX : Apprendre à planifier à partir de pixels bruts pour le pilotage autonome en boucle complète

Chat avec l'IA : La tournure surprenante de la communication vidéo en temps réel passant d'un humain à une IA

MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Recherche profonde avec diffusion en temps de test

La géométrie de la quantification des LLM : GPTQ comme l'algorithme du plan le plus proche de Babai

Moins, c’est plus pour la détection de la parole synthétique dans le monde réel

Sélection de ReLU locale versus globale : la MILP partielle fait son retour pour la vérification des réseaux de neurones profonds

CoT-Self-Instruct : Construction de promts synthétiques de haute qualité pour les tâches de raisonnement et non de raisonnement

Vers des expressions et raisonnements omnimodaux dans la segmentation audio-visuelle par référence

Adaptation de détecteurs de véhicules pour des images aériennes à des domaines inédits avec une supervision faible

VL-Cogito : apprentissage par renforcement avec programme progressif pour le raisonnement multimodal avancé

Falcon-H1 : une famille de modèles linguistiques à tête hybride redéfinissant l'efficacité et les performances

BANG : Division de ressources 3D par dynamique éclatée générative

ScreenCoder : Progresser dans la génération visuelle vers le code pour l'automatisation du front-end grâce à des agents multimodaux modulaires

MIRepNet : Une chaîne de traitement et un modèle fondamental pour la classification de l’imagerie motrice à partir d’EEG

ChemDFM-R : Un raisonneur chimique basé sur un modèle linguistique grand (LLM) amélioré par des connaissances chimiques atomisées

X-Omni : Le apprentissage par renforcement rend aux modèles de génération d’images autoregressifs discrets leur grandeur d’antan

HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels

AlphaEarth Foundations : un modèle de champ d'embeddings pour une cartographie globale précise et efficace à partir de données étiquetées éparses

Vers une prévision à longue portée de l'ENSO à l'aide d'un modèle d'apprentissage profond explicite

OmniArch : Construction d'un modèle fondamental pour le calcul scientifique

UI-AGILE : Approfondir les agents d'interface utilisateur avec un apprentissage par renforcement efficace et une ancrage précis au moment de l'inférence

DualSG : Un cadre de prévision des séries temporelles multivariées à guide sémantique explicite à deux flux

Lorsque les tokens parlent trop : Une revue de la compression de tokens à longue portée multimodaux dans les images, vidéos et audios

SmallThinker : Une famille de modèles de langage à grande échelle efficaces entraînés nativement pour le déploiement local

Reconstruction de l'intelligence spatiale 4D : Un état de l'art

Rep-MTL : Déverrouiller le pouvoir de la salience des tâches au niveau de la représentation pour l'apprentissage multi-tâches

ARC-Hunyuan-Video-7B : Compréhension structurée des vidéos du monde réel en courte durée

Optimisation de politique renforcée agente

Spécification de correction auto : atténuer le piratage de récompense en contexte par une révision au moment des tests

PRIX : Apprendre à planifier à partir de pixels bruts pour le pilotage autonome en boucle complète

Chat avec l'IA : La tournure surprenante de la communication vidéo en temps réel passant d'un humain à une IA

MMBench-GUI : Cadre d'évaluation hiérarchique pour les agents GUI multiplateformes

Recherche profonde avec diffusion en temps de test

La géométrie de la quantification des LLM : GPTQ comme l'algorithme du plan le plus proche de Babai