深度学习知识点总结
专栏链接:
https://blog.csdn.net/qq_39707285/article/details/124005405
此专栏主要总结深度学习中的知识点,从各大数据集比赛开始,介绍历年冠军算法;同时总结深度学习中重要的知识点,包括损失函数、优化器、各种经典算法、各种算法的优化策略Bag of Freebies (BoF)等。
从RNN到Attention到Transformer系列
专栏链接:
https://blog.csdn.net/qq_39707285/category_11814303.html
此专栏主要介绍RNN、LSTM、Attention、Transformer及其代码实现。
Attention相关详细介绍及其代码实现见文章《从RNN到Attention到Transformer系列-Attention介绍及代码实现》-https://blog.csdn.net/qq_39707285/article/details/124732447
本文以实现翻译为例。假如batchsize=8,第一个batchsize内最大输入单词数为17,最大输出单词数为15(每个batchsize内的最大输入长度根据相应情况变动)。输入词典总数7853(德语),输出词典总数5893(英语)。
编码器输入size=256,隐藏层size=512,双向GPU
解码器输入size=256,隐藏层size=512,单向GPU
第一个batchsize内的输入单词的one-hot表示,如下所示:
shape大小为(17×8),第一行的2代表
词向量编码-(nn.Embedding(7853,256))
把原句进行词向量编码,如下:
GRU
编码后的词向量输入到GRU中,输出outputs和hidden。
GRU具体运行过程如下:
第一个输入为
,shape为(17×8×1024),
hnh_nhn是最后一个输出,双向所以有两个,shape为(2×8×512)
初始化解码器隐藏层状态s0s_0s0
由于解码器不是双向的,因此只需要一个上下文向量:
s0=hns_0=h_ns0=hn,shape为(8×512)。
整体过程
或者
把v当为所有编码器隐藏状态的能量加权总和的权重。这些权重告诉我们应该关注源序列中的每个令牌的程度。参数v是随机初始化的,但通过反向传播与模型的其余部分一起学习。注意如何v不依赖于时间,并且相同v用于解码的每个时间步长。这里v使用没有偏差的线性层。
最后,确保注意力向量符合使所有元素在 0 和 1 之间以及向量求和为 1 的约束,使用softmax层。
加权源向量w
图中outputs是编码器的输出结果。
one-hot
把目标句进行词向量编码,如下:
第一个batchsize内的输入单词的one-hot表示,如下所示:
shape大小为(15×8),第一行的2代表
不断更新w和a,直到最后一个输入
或者:
上一篇:元宇宙构建基石:三维重建技术