答: 二者区别不大,但是绝对差值是一个不可导的函数,在零点的时候,绝对差值的导数会有点难求。
答:求平均的话,梯度是在一个样本的scale上,不求平均的话,得到的损失是batch_size个样本或者整个样本,那相应的得到梯度会比较大。在损失上除以n其实就等价于梯度也除以了n。学习率就是为了(学习率*梯度)这一块 不要太大也不要太小。除以n的好处就是,不论样本多大或者批量batch_szie多大,梯度的值都是差不多的,因为都是在一个样本的scale上,这样比较好调学习率
答:是的。一般都是。
答:一是可以找到一个对学习率不那么敏感的算法,比如说adam。二是可以进行合理的参数初始化使得学习率很容易取得。
答:batch_size过小会有利于梯度计算的精确。在丢弃法dropout,batch_size在同样的计算,例如扫数据扫多少遍,epoch=3,batch_size越小,对收敛越好。随机梯度下降理论上是带来了噪音(跟真实的数据的差距),采样样本越小,噪音越多。
例如有一百万个样本,每次采样两张图片,那么噪音会比较大,跟真实的方向会差很远。
但是噪音对神经网络是件好事,因为现在深度神经网络都太复杂了,一定的噪音,使得你不会走偏。噪声可以防止过拟合,使得整个模型的泛化性更好。
答:理论上,学习率和批量大小不太会影响到最后的收敛结果。
答:是的。
答:希望将某些计算移动到记录的计算图之外,那就使用detach()。此外,想转numpy,也需要先做一下detach()