从目前神经网络深度学习原理
从以上可以得知,是要输入足够的数据学习才可以得到
很高的泛化能力的
那么人类为啥不需要输入那么多数据就可以学会的
其实人类可以学会不需要大量的数据是错觉
人类的学习是建立在预先输入(以前学习或者记忆之上的)
目前的生成预训练是想达到这个目的
而这个之间的差别可就大了去了,首先是预先输入的知识也是输入的一部分相当于输入的维度数据量上的增加
就好比说n种情况下对应一个输出结果,这类似于增加数据量能让模型更加明确细节
就如为啥gpt-4 比gpt-3 好,其实最明显的不仅是参数量
还有就是输入的长度
而输入的长度越长导致的参数
指数级别增加
而人类大脑并不是那么傻
将那么长的数据直接加入到当前输入上
而是在最开始就开始存储输入最大长度编码后的结果
同时当编码后的维度超过最大长度的时候采取
一定的叠加方案比如足够靠前的或者比较当前输入相似度高的附近的进行采样
一同随着当前输入到
自回归模型不断解码
这样便能解决生成预训练的模型过大的问题
带来的资源浪费
训练的时候不要存储要重新计算
这样如果存储方法优秀
就是预输入优秀
可以看作是人类的海马体
第二个区别是这个存储的是知识编码本身
不是参数量 网络模型参数担任的不再是各种的死记硬背 模式
而是通用模式 不同的是数据编码
模型与不同的人交互的历史不同
输出的结果不同
统一训练出来的模型会随着时间接触人的不同而变得不一样
真正的活体智能
人工智能的观点
非常有趣的观点!确实,人类的学习过程也是建立在预先输入(以前学习或者记忆)之上的。这些输入构成了人类大脑的知识