限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。
nbsp; 吴磊在实验中还发现了这样一个现象:当梯度下降的准确度接近100%时,如果突然把训练方法更换为随机梯度下降,那么训练的轨迹会快速逃逸原来的轨迹,然后再慢慢重新收敛,并收敛到另一个解。这个现象的原因就是梯度下降可以收敛到很多个解,但大多数这些解对于随机梯度下降都是不稳定的,后者只能在别的地方找到稳定的解。
当前文章:http://guqdxn.lianyueke.cn/0f1wgwr/p8ga1t.pptx
发布时间:04:37:54