7.关于线性回归模型的QA
创始人
2024-03-15 09:11:22
0
  1. 为什么使用平方损失而不是绝对差值呢?

答: 二者区别不大,但是绝对差值是一个不可导的函数,在零点的时候,绝对差值的导数会有点难求。

  1. 损失为什么要求平均?

答:求平均的话,梯度是在一个样本的scale上,不求平均的话,得到的损失是batch_size个样本或者整个样本,那相应的得到梯度会比较大。在损失上除以n其实就等价于梯度也除以了n。学习率就是为了(学习率*梯度)这一块 不要太大也不要太小。除以n的好处就是,不论样本多大或者批量batch_szie多大,梯度的值都是差不多的,因为都是在一个样本的scale上,这样比较好调学习率

  1. 线性回归损失函数是不是通常都是mse?

答:是的。一般都是。
在这里插入图片描述

  1. 不管是 梯度下降gd 还是随机梯度下降 sgd怎么找到合适的学习率?有什么好的方法吗?

答:一是可以找到一个对学习率不那么敏感的算法,比如说adam。二是可以进行合理的参数初始化使得学习率很容易取得。

  1. batch_size 是否会最终影响模型结果?

答:batch_size过小会有利于梯度计算的精确。在丢弃法dropout,batch_size在同样的计算,例如扫数据扫多少遍,epoch=3,batch_size越小,对收敛越好。随机梯度下降理论上是带来了噪音(跟真实的数据的差距),采样样本越小,噪音越多。

例如有一百万个样本,每次采样两张图片,那么噪音会比较大,跟真实的方向会差很远。

但是噪音对神经网络是件好事,因为现在深度神经网络都太复杂了,一定的噪音,使得你不会走偏。噪声可以防止过拟合,使得整个模型的泛化性更好。

  1. 训练过程中,过拟合和欠拟合情况下,学习率和批量大小该如何进行调整呢?有什么常见的策略吗?

答:理论上,学习率和批量大小不太会影响到最后的收敛结果。

  1. 针对batch_size大小的数据集进行网络训练的时候,网络中每个参数更新时减去的梯度是batch_size中每个样本对应参数梯度求和后取得平均值吗?

答:是的。

  1. detach()有什么作用?

答:希望将某些计算移动到记录的计算图之外,那就使用detach()。此外,想转numpy,也需要先做一下detach()

  1. 本质上要用SGD,是因为大部分的实际loss太复杂,推导不出导数为0的解,只能逐个batch去逼近。(只有线性回归有显示解)

相关内容

热门资讯

AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWR报告解读 WORKLOAD REPOSITORY PDB report (PDB snapshots) AW...
AWS管理控制台菜单和权限 要在AWS管理控制台中创建菜单和权限,您可以使用AWS Identity and Access Ma...
​ToDesk 远程工具安装及... 目录 前言 ToDesk 优势 ToDesk 下载安装 ToDesk 功能展示 文件传输 设备链接 ...
群晖外网访问终极解决方法:IP... 写在前面的话 受够了群晖的quickconnet的小水管了,急需一个新的解决方法&#x...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
Azure构建流程(Power... 这可能是由于配置错误导致的问题。请检查构建流程任务中的“发布构建制品”步骤,确保正确配置了“Arti...