面了两个部门:
nlp 没太多项目经验,目前主要在做模型压缩和gnn
IEG,一小时左右
1.项目聊了很久
2.模型量化的主要困难是什么?
答:对于量化感知需要重训,然后底层低比特汇编难写
3.蒸馏有哪几种?
答:目前我知道的bert 的蒸馏主要是中间层mse蒸馏,最后用softmax蒸馏
还有没有?
答:应该没了
4.Albert
答:主要做了3点改进:1.矩阵分解 2.权重共享 3.nsp任务改进
5.mobilebert
答:还没看,正准备看,只是大概知道和蒸馏不一样,mobilebert bert 层数没有改变
6.一道题,不难
可能已经有合适的候选人了吧,挂了
wxg,一个多小时吧,面试官应该是博士,面的比较细,项目的所有细节基本都问了
1.项目
2.LSTM为什么能解决梯度消失和梯度爆炸
答:输入门多乘了一个权重矩阵,丢失了部分前面层信息。
面试官说不是,应该是最后输出门多了tanh 或者sigm
答:对于量化感知需要重训,然后底层低比特汇编难写
3.蒸馏有哪几种?
答:目前我知道的bert 的蒸馏主要是中间层mse蒸馏,最后用softmax蒸馏
还有没有?
答:应该没了
4.Albert
答:主要做了3点改进:1.矩阵分解 2.权重共享 3.nsp任务改进
5.mobilebert
答:还没看,正准备看,只是大概知道和蒸馏不一样,mobilebert bert 层数没有改变
6.一道题,不难
可能已经有合适的候选人了吧,挂了
wxg,一个多小时吧,面试官应该是博士,面的比较细,项目的所有细节基本都问了
1.项目
2.LSTM为什么能解决梯度消失和梯度爆炸
答:输入门多乘了一个权重矩阵,丢失了部分前面层信息。
面试官说不是,应该是最后输出门多了tanh 或者sigmoid ,算梯度的时候把乘变成了加
3.word2vec 了解哪些:
答:传统的cbow和skip-gram,fasttext ,glove,elmo和bert
具体都说一下
答:fasttext 主要对比cbow和skip-gram 多了word的切片,层次softmax吧,以前kaggle 用的比较多,glove 多考虑了共现矩阵,elmo 了解的不多只是大概了解,用了双向lstm,考虑了句子后面的信息,最后就是bert,bert 主要改进是把lstm替换为了self-attention,然后就说多了。。。,我知道self-attention是用softmax(q*k)*v,但是不知道为什么attention 能取代lstm
面试官:说了一下为什么attention 能取代lstm,有点忘了具体说的东西了
4.机器学习都了解吧,说一下集成学习
答:balabala
5.一道题,没复习,没做出来
最长公共子序列
唉,还要复习oj。
全部评论
(3) 回帖