2.lstm到底解决了什么?解决了梯度消失?
3.LSTM三种门以及sigmoid函数对每个门的作用
4.Self-attention的Query,Key,Value分别是什么
5.Slef-attention的乘法计算和加法计算有什么区别?什么时候乘比较好,什么时候加?为什么要除以一个根号?
6.LSTM中各模块分别使用什么激活函数,可以使用别的激活函数码?
7.多头注意力机制的原理是什么?
8.Transformer用的是哪种attention机制?
9.画一下Transformer结构图
10.word2vector 如何做负采样?是在全局采样?还是在batch采样?如何实现多batch采样?怎么确保采样不会采到正样本?word2vector负采样时为什么要对频率做3/4次方?
11.W2V经过霍夫曼或者负采样之后,模型与原模型相比,是等价的还是相似的?
12.介绍一下sigmoid 和 relu,relu有什么缺点?
13.深层神经网络为什么不好训?除了梯度消失还有哪些原因?
全部评论
(0) 回帖