2 个月前

经验风险最小化在随机凸优化中的应用:$O(1/n)$ 和 $O(1/n^2)$ 风险界类型

Lijun Zhang; Tianbao Yang; Rong Jin
经验风险最小化在随机凸优化中的应用:$O(1/n)$ 和 $O(1/n^2)$ 风险界类型
摘要

尽管监督学习中存在大量关于经验风险最小化(ERM)的理论,但对于相关问题——随机凸优化(SCO)的经验风险最小化的当前理论理解仍然有限。在本研究中,我们通过利用平滑性和强凸性条件来改进风险界,从而加强了SCO领域内ERM的研究。首先,当随机函数是非负、凸且平滑时,且期望函数是Lipschitz连续的,我们建立了$\widetilde{O}(d/n + \sqrt{F_/n})$的风险界,其中$d$是问题的维度,$n$是样本数量,$F_$是最小风险。因此,当$F_$较小时,我们得到一个$\widetilde{O}(d/n)$的风险界,这类似于监督学习中ERM的$\widetilde{O}(1/n)$乐观率。其次,如果目标函数也是$λ$-强凸的,则我们证明了一个$\widetilde{O}(d/n + κF_/n)$的风险界,其中$κ$是条件数,并且当$n=\widetildeΩ(κd)$时将其改进为$O(1/[λn^2] + κF_/n)$。结果,在$n$较大且$F_$较小的情况下,我们得到了一个$O(κ/n^2)$的风险界,据我们所知,这是首个关于ERM的$O(1/n^2)$类型的风险界。第三,我们强调上述结果是在统一框架下建立的,该框架允许我们在较弱条件下推导出新的风险界,例如不需要随机函数的凸性和期望函数的Lipschitz连续性。最后,我们展示了为了在监督学习中实现$O(1/[λn^2] + κF_*/n)$的风险界,对$n$的要求可以从$\widetildeΩ(κd)$替换为$Ω(κ^2)$,后者与维度无关。