beyond20180906100004

编辑于 2020-09-14 10:00

+ 关注

鹅厂nlp社招一面凉经

面了两个部门：

nlp 没太多项目经验，目前主要在做模型压缩和gnn

IEG，一小时左右

1.项目聊了很久

2.模型量化的主要困难是什么？

答：对于量化感知需要重训，然后底层低比特汇编难写

3.蒸馏有哪几种?

答：目前我知道的bert 的蒸馏主要是中间层mse蒸馏，最后用softmax蒸馏

还有没有？

答：应该没了

4.Albert

答：主要做了3点改进：1.矩阵分解 2.权重共享 3.nsp任务改进

5.mobilebert

答：还没看，正准备看，只是大概知道和蒸馏不一样，mobilebert bert 层数没有改变

6.一道题，不难

可能已经有合适的候选人了吧，挂了

wxg，一个多小时吧，面试官应该是博士，面的比较细，项目的所有细节基本都问了

1.项目

2.LSTM为什么能解决梯度消失和梯度爆炸

答：输入门多乘了一个权重矩阵，丢失了部分前面层信息。

面试官说不是，应该是最后输出门多了tanh 或者sigm

答：对于量化感知需要重训，然后底层低比特汇编难写

3.蒸馏有哪几种?

答：目前我知道的bert 的蒸馏主要是中间层mse蒸馏，最后用softmax蒸馏

还有没有？

答：应该没了

4.Albert

答：主要做了3点改进：1.矩阵分解 2.权重共享 3.nsp任务改进

5.mobilebert

答：还没看，正准备看，只是大概知道和蒸馏不一样，mobilebert bert 层数没有改变

6.一道题，不难

可能已经有合适的候选人了吧，挂了

wxg，一个多小时吧，面试官应该是博士，面的比较细，项目的所有细节基本都问了

1.项目

2.LSTM为什么能解决梯度消失和梯度爆炸

答：输入门多乘了一个权重矩阵，丢失了部分前面层信息。

面试官说不是，应该是最后输出门多了tanh 或者sigmoid ，算梯度的时候把乘变成了加

3.word2vec 了解哪些：

答：传统的cbow和skip-gram，fasttext ，glove，elmo和bert

具体都说一下

答：fasttext 主要对比cbow和skip-gram 多了word的切片，层次softmax吧，以前kaggle 用的比较多，glove 多考虑了共现矩阵，elmo 了解的不多只是大概了解，用了双向lstm，考虑了句子后面的信息，最后就是bert，bert 主要改进是把lstm替换为了self-attention，然后就说多了。。。，我知道self-attention是用softmax（q*k）*v,但是不知道为什么attention 能取代lstm

面试官：说了一下为什么attention 能取代lstm，有点忘了具体说的东西了

4.机器学习都了解吧，说一下集成学习

答：balabala

5.一道题，没复习，没做出来

最长公共子序列

唉，还要复习oj。

已采纳

采纳

精彩回帖

精彩

全部评论

(3) 回帖

加载中...

话题同步到我的动态回帖

鹅厂nlp社招一面凉经

更多模拟面试

已采纳

精彩回帖

全部评论

近期热帖

近期精华帖

热门推荐

鹅厂nlp社招一面凉经

更多模拟面试

已采纳

精彩回帖

全部评论

相关热帖

近期热帖

近期精华帖

热门推荐