声明:仅学习使用~
前篇指路:【Transformer】医学分隔领域的应用与扩展(论文阅读)(一)
继续…
关于Self-Attention的公式:
原来是 m x m 是2D的,现在变成1 x m了,是1D的了。
下图中。左图是传统的Transformer,右图是作者提出的“位置编码
”。
关于 Q K V 的故事。可以参见之前记录过的:【DETR目标检测】关键词:Decoder。Enc
上一篇:自动化测试高手-价值篇
下一篇:C++基础之提高5