HyperAIHyperAI

Command Palette

Search for a command to run...

Minimisation du Risque Empirique pour l'Optimisation Convexe Stochastique : Bornes de Risque de Type O(1/n)O(1/n)O(1/n) et O(1/n2)O(1/n^2)O(1/n2)

Lijun Zhang; Tianbao Yang; Rong Jin

Résumé

Bien que de nombreuses théories d'optimisation du risque empirique (ERM) pour l'apprentissage supervisé existent, les compréhensions théoriques actuelles de l'ERM pour un problème connexe — l'optimisation convexe stochastique (SCO) — sont limitées. Dans ce travail, nous renforçons le domaine de l'ERM pour la SCO en exploitant les conditions de régularité et de forte convexité afin d'améliorer les bornes de risque. Premièrement, nous établissons une borne de risque O~(d/n+F/n)\widetilde{O}(d/n + \sqrt{F_/n})O(d/n+F/n) lorsque la fonction aléatoire est non négative, convexe et régulière, et que la fonction attendue est lipschitzienne continue, où ddd est la dimensionnalité du problème, nnn est le nombre d'échantillons, et F_ est le risque minimal. Ainsi, lorsque F_ est petit, nous obtenons une borne de risque O~(d/n)\widetilde{O}(d/n)O(d/n), analogue au taux optimiste O~(1/n)\widetilde{O}(1/n)O(1/n) de l'ERM pour l'apprentissage supervisé. Deuxièmement, si la fonction objectif est également λ\lambdaλ-fortement convexe, nous prouvons une borne de risque O~(d/n+κF/n)\widetilde{O}(d/n + κF_/n)O(d/n+κF/n)κκκ est le nombre de conditionnement, et nous améliorons cette borne à O(1/[λn2]+κF/n)O(1/[λn^2] + κF_/n)O(1/[λn2]+κF/n) lorsque n=Ω~(κd)n=\widetildeΩ(κd)n=Ω(κd). Par conséquent, sous la condition que nnn soit grand et que F_ soit petit, nous obtenons une borne de risque O(κ/n2)O(κ/n^2)O(κ/n2), qui constitue selon nos connaissances la première borne de risque de type O(1/n2)O(1/n^2)O(1/n2) pour l'ERM. Troisièmement, nous soulignons que ces résultats sont établis dans un cadre unifié, permettant ainsi de déduire de nouvelles bornes de risque sous des conditions plus faibles, par exemple sans nécessiter la convexité de la fonction aléatoire ni la continuité lipschitzienne de la fonction attendue. Enfin, nous montrons qu'en vue d'obtenir une borne de risque O(1/[λn2]+κF/n)O(1/[λn^2] + κF_*/n)O(1/[λn2]+κF/n) pour l'apprentissage supervisé, la condition Ω~(κd)\widetildeΩ(κd)Ω(κd) sur nnn peut être remplacée par Ω(κ2)Ω(κ^2)Ω(κ2), ce qui est indépendant de la dimensionnalité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp