LSTM三种门以及sigmoid函数对每个门的作用
Self-attention的Query,Key,Value分别是什么。乘积是什么和什么的Query和Key相乘
Slef-attention的乘法计算和加法计算有什么区别?什么时候乘比较好,什么时候加
为什么要除以一个根号?
多头注意力机制的原理是什么?
Transformer用的是哪种attention机制?
画一下Transformer结构图
面完挂了。感觉还是看论文不够细致,平时写代码经常看几眼原理就调包调参了……
全部评论
(6) 回帖