HyperAIHyperAI

Command Palette

Search for a command to run...

Le Prochain Token Suffit : Évaluation Réaliste de la Qualité et de l'Esthétique des Images avec un Modèle Linguistique Multimodal de Grande Taille

Mingxing Li Rui Wang Lei Sun Yancheng Bai Xiangxiang Chu

Résumé

L'expansion rapide de l'internet mobile a entraîné une augmentation considérable du contenu généré par les utilisateurs (UGC) sous forme d'images, rendant ainsi l'évaluation approfondie de ces images à la fois urgente et essentielle. Récemment, les modèles linguistiques à grande échelle multimodaux (MLLMs) ont démontré un grand potentiel dans l'évaluation de la qualité des images (IQA) et l'évaluation esthétique des images (IAA). Malgré ces progrès, l'évaluation efficace de la qualité et de l'esthétique des images UGC reste confrontée à deux défis majeurs : 1) un score unique est insuffisant pour capturer la perception hiérarchique humaine ; 2) la manière dont les MLLMs peuvent produire des scores numériques, tels que les scores moyens d'opinion (MOS), reste une question ouverte. Pour relever ces défis, nous introduisons un nouveau jeu de données, nommé Realistic image Quality and Aesthetic (RealQA), comprenant 14 715 images UGC, chacune annotée avec 10 attributs fins. Ces attributs couvrent trois niveaux : bas niveau (par exemple, netteté de l'image), niveau intermédiaire (par exemple, intégrité du sujet) et haut niveau (par exemple, composition). Par ailleurs, nous menons une série d'études approfondies et complètes sur la manière d'obtenir efficacement des scores numériques à l'aide des MLLMs. De manière surprenante, en prédisant simplement deux chiffres significatifs supplémentaires, le paradigme du prochain jeton parvient à atteindre des performances de pointe (SOTA). En outre, grâce à l'association de la chaîne de raisonnement (CoT) et des attributs fins appris, la méthode proposée surpasse les méthodes de pointe sur cinq jeux de données publics pour l'IQA et l'IAA, tout en offrant une interprétabilité supérieure et une forte généralisation zéro-shot pour l'évaluation de la qualité vidéo (VQA). Le code source et le jeu de données seront publiés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp