7.关于线性回归模型的QA_编程开发

7.关于线性回归模型的QA

创始人

2024-03-15 09:11:22

0次

为什么使用平方损失而不是绝对差值呢？

答：二者区别不大，但是绝对差值是一个不可导的函数，在零点的时候，绝对差值的导数会有点难求。

损失为什么要求平均？

答：求平均的话，梯度是在一个样本的scale上，不求平均的话，得到的损失是batch_size个样本或者整个样本，那相应的得到梯度会比较大。在损失上除以n其实就等价于梯度也除以了n。学习率就是为了（学习率*梯度）这一块不要太大也不要太小。除以n的好处就是，不论样本多大或者批量batch_szie多大，梯度的值都是差不多的，因为都是在一个样本的scale上，这样比较好调学习率

线性回归损失函数是不是通常都是mse？

答：是的。一般都是。
在这里插入图片描述

不管是梯度下降gd 还是随机梯度下降 sgd怎么找到合适的学习率？有什么好的方法吗？

答：一是可以找到一个对学习率不那么敏感的算法，比如说adam。二是可以进行合理的参数初始化使得学习率很容易取得。

batch_size 是否会最终影响模型结果？

答：batch_size过小会有利于梯度计算的精确。在丢弃法dropout，batch_size在同样的计算，例如扫数据扫多少遍，epoch=3，batch_size越小，对收敛越好。随机梯度下降理论上是带来了噪音（跟真实的数据的差距），采样样本越小，噪音越多。

例如有一百万个样本，每次采样两张图片，那么噪音会比较大，跟真实的方向会差很远。

但是噪音对神经网络是件好事，因为现在深度神经网络都太复杂了，一定的噪音，使得你不会走偏。噪声可以防止过拟合，使得整个模型的泛化性更好。

训练过程中，过拟合和欠拟合情况下，学习率和批量大小该如何进行调整呢？有什么常见的策略吗？

答：理论上，学习率和批量大小不太会影响到最后的收敛结果。

针对batch_size大小的数据集进行网络训练的时候，网络中每个参数更新时减去的梯度是batch_size中每个样本对应参数梯度求和后取得平均值吗？

答：是的。

detach（）有什么作用？

答：希望将某些计算移动到记录的计算图之外，那就使用detach（）。此外，想转numpy，也需要先做一下detach（）

本质上要用SGD，是因为大部分的实际loss太复杂，推导不出导数为0的解，只能逐个batch去逼近。（只有线性回归有显示解）

上一篇：[附源码]Python计算机毕业设计Django美发店会员管理系统

下一篇：[附源码]计算机毕业设计springboot学习帮扶网站设计与实现

7.关于线性回归模型的QA

相关内容

热门资讯