HyperAIHyperAI
il y a 16 jours

Taxonomie hiérarchique de la mise en œuvre de prompts : un cadre d’évaluation universel pour les modèles de langage à grande échelle

Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
Taxonomie hiérarchique de la mise en œuvre de prompts : un cadre d’évaluation universel pour les modèles de langage à grande échelle
Résumé

Évaluer l’efficacité des grands modèles linguistiques (LLM) dans la résolution de tâches diverses est essentiel pour comprendre leurs forces et leurs faiblesses. Les méthodes d’évaluation conventionnelles appliquent généralement une seule stratégie d’instruction de manière uniforme sur l’ensemble des jeux de données, sans tenir compte des différences de complexité des tâches. Nous introduisons la Taxonomie de Prompt hiérarchique (HPT), une taxonomie fondée sur un Cadre de Prompt hiérarchique (HPF) composé de cinq stratégies d’instruction distinctes, ordonnées du plus simple au plus complexe, afin d’évaluer les LLM de manière plus précise et de fournir une perspective plus claire. Cette taxonomie attribue à chaque jeu de données et à chaque LLM un score, appelé Score de Prompt hiérarchique (HP-Score), selon des règles définies, offrant ainsi une compréhension nuancée de leur capacité à résoudre des tâches variées, tout en proposant une mesure universelle de la complexité des tâches. En outre, nous proposons le Cadre de Prompt hiérarchique adaptatif, qui automatisé le choix des stratégies d’instruction appropriées pour chaque tâche. Cette étude compare les cadres de prompt hiérarchique manuels et adaptatifs à l’aide de quatre LLM ajustés à l’instruction : Llama 3 8B, Phi 3 3.8B, Mistral 7B et Gemma 7B, sur quatre jeux de données : BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) et SamSum. Les expérimentations démontrent l’efficacité de la HPT, offrant une méthode fiable pour comparer les différentes tâches et les capacités des LLM. Ce travail ouvre la voie au développement d’un métrique d’évaluation universelle, applicable à l’évaluation à la fois de la complexité des jeux de données et des capacités des LLM. L’implémentation du cadre HPF manuel comme celle du cadre HPF adaptatif est mise à disposition publiquement.

Taxonomie hiérarchique de la mise en œuvre de prompts : un cadre d’évaluation universel pour les modèles de langage à grande échelle | Articles de recherche récents | HyperAI