il y a 2 mois

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Résumé

Nous présentons le classement FACTS, une suite de classements en ligne assortie d’un ensemble de benchmarks visant à évaluer de manière exhaustive la capacité des modèles linguistiques à générer des textes factuellement exacts dans divers scénarios. La suite propose une mesure globale de la facticité en regroupant les performances des modèles sur quatre sous-classements distincts : (1) FACTS Multimodal, qui évalue la facticité des réponses aux questions basées sur des images ; (2) FACTS Paramétrique, qui mesure le savoir du monde des modèles en répondant à des questions factuelles à l’aide uniquement de leurs paramètres internes (sans accès à des données externes) ; (3) FACTS Recherche, qui évalue la facticité dans des scénarios d’information, où le modèle doit utiliser une API de recherche ; et (4) FACTS Ancrage (v2), qui évalue si les réponses longues sont bien ancrées dans des documents fournis, avec des modèles d’évaluation (judge models) nettement améliorés. Chaque sous-classement utilise des modèles d’évaluation automatisés pour noter les réponses des modèles, et le score global de la suite est la moyenne des quatre composantes, conçu pour offrir une évaluation robuste et équilibrée de la facticité globale d’un modèle. La suite du classement FACTS sera activement maintenue, incluant des ensembles publics et privés afin de permettre la participation extérieure tout en préservant son intégrité. Elle est accessible à l’adresse suivante : https://www.kaggle.com/benchmarks/google/facts.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Benchmarks

Génération Augmentée Par La Recherche

Réponse À Des Questions Visuelles

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Benchmarks

Génération Augmentée Par La Recherche

Réponse À Des Questions Visuelles

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Le classement FACTS : une référence complète pour la facticité des grands modèles linguistiques

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas55 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Le classement FACTS : une référence complète pour la facticité des grands modèles linguistiques

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas55 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Le classement FACTS : une référence complète pour la facticité des grands modèles linguistiques

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas55 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas