牛客731491211号

发布于 2021-05-18 11:54

+ 关注

2021实习算法的一点面经内部员工回复

个人不是很喜欢记录，写代码都很少写注释，所以将就看一下，参考吧。

个人介绍：名字很长院校211本硕，统计专业。

无实习，kaggle上两个比赛，没有好成绩，跟着导师在在线学习有点研究，没有论文。掌握机器学习和深度学习中NLP的相关知识

3月底开始，投了BAT和字节、快手、美团。四月京东、网易，携程和其他

字节、快手估计投早了，没有笔试和面试；

美团笔试题没做好，一直在池子里；携程要全部出来才有结果，当时不知道做了1.8/2就玩去了。

腾讯一面，还没做笔试，方向是音频；后来做了笔试，也没有再被捞起来。

百度两面，也是题没做好（当场回溯不会），基础不牢（lr推导失败)，方向是进去后再选。

阿里三面，领导面的时候被问到了奇怪的点，后面就全崩了。淘宝特价版，推荐方向

网易一面，方向是虚拟电商平台交易，好像也是推荐。

京东两面+HR，貌似深圳大部分都被刷了，大概不缺人吧。方向据说是纯NLP

武汉两家小企业，都是面试后很快有结果，一个NLP的协助做项目，一个机器学习方向做预测。

最后估计要去oppo做推荐了，只有一面，应该能进（hr已经联系）

总体感觉就是阿里缺人，所以进度走的很快，一天一面，但是可惜吧；

百度很正式，每面都可以做题，感受不错；

腾讯很看面试部门吧，第一场面试面的腾讯，确实也没有很好的准备。

美团还是要做题，笔试太早，不了解情况。

京东希望下次能有岗位，网易考察了统计的一些点。

——————下面是一些面试的记录，肯定不全，仅供参考————————

腾讯一面
问了一点模型，整体
position encoder做什么用
有没有外部数据集
文本分类如何做的
encoder部分产生特征的作用
输出是什么
机器学习中有哪些分类算法
贝叶斯学派和统计学派区别
特征值分解，SVD如何实际用
因子模型和主成分差别
朴素贝叶斯，为什么朴素
正则化方法有哪些
预测销量怎么做的
gru能不能用gpu
公司做的语音识别

百度公司一面和二面
不会的问题：
1.LR现场推导目标函数和梯度
注意p和1-p先求导
2.GBDT和XGBOOST差别
A：利用二阶信息；处理缺失值；弱分类器选择；列抽样和行抽样；正则项做预剪枝，并行化处理（特征排序等）
3.Batch Normalization 缺点
A：batch太小,会造成波动大；对于文本数据，不同有效长度问题；测试集上两个数据均值和方差差别很大就不合适了
附：LN是对一个样本的一个时间步上的数据进行减均除标准差，然后再回放（参数学习）对应到普通线性回归就是一层节点求均除标准差。
4.分词如何做
基于规则（超大词表）；基于统计（两字同时出现越多，就越可能是词）；基于网络LSTM+CRF词性标注，也可以分词
5.softmax值太小
计算非张量，所以计算量很大
6.Adam缺点
后期梯度很小，几乎不动了，没有SGD好，前期快是优点；泛化能力不强，
其他想到的：
1.各类优化算法sgd等
2.各类激活函数优缺点（非中心化，梯度消失，神经元死亡，幂计算量比较大）
3.各种分类算法
4.有哪些attention方法

1-100
扩张性（lr能做但是xgboost不能做）

京东：
从左往右升序，从上往下升序，找到那个值
bagging和boosting
rnn,lstm,gru区别
大数据方向：
groupbykey,reducebykey,combinebykey
groupbykey按照key来分成group
reducebykey按照key来进行操作combFunc
aggregateByKey按照key操作，多了一个zerovalue
combinebykey每个分区计数，不同分区再计数
udf函数？
数据倾斜问题解决？https://zhuanlan.zhihu.com/p/64240857
什么是数据倾斜？在shuffle操作时，按照key进行value的输出、拉取和聚合
对于有的key需要分配reduce task来处理，但是太多了，所以某些task处理很慢
1.哪里会出现shuffle，groupByKey、countByKey、reduceByKey、join
对于拿到的hive数据，本身就是key|value1，value2,value3，不再有shuffle操作,直接map
2.聚合数据，用的粒度粗一点，不要直接80w计算，而是多分几个类型再聚合
3.指定shuffle的并行度，给任务大的task多一些worker
4.小数据和大数据做的时候，小数据复制很多份
网上参考NLP链接：
1.rnn真的就梯度消失了吗？
2.lstm到底解决了什么？解决了梯度消失？
3.LSTM三种门以及sigmoid函数对每个门的作用
4.Self-attention的Query，Key，Value分别是什么
5.Slef-attention的乘法计算和加法计算有什么区别？什么时候乘比较好，什么时候加？为什么要除以一个根号？
6.LSTM中各模块分别使用什么激活函数，可以使用别的激活函数码？
7.多头注意力机制的原理是什么？
8.Transformer用的是哪种attention机制？
9.画一下Transformer结构图
10.word2vector 如何做负采样？是在全局采样？还是在batch采样？如何实现多batch采样？怎么确保采样不会采到正样本？word2vector负采样时为什么要对频率做3/4次方？
11.W2V经过霍夫曼或者负采样之后，模型与原模型相比，是等价的还是相似的？
12.介绍一下sigmoid 和 relu，relu有什么缺点？
13.深层神经网络为什么不好训？除了梯度消失还有哪些原因？
京东二面：
1.负采样
2.分层softmax
3.预测还是训练

网易一面：
GBDT优化是怎么做的，梯度下降如何做选择
虚拟电商平台

已采纳

采纳

精彩回帖

精彩

全部评论

(4) 回帖

加载中...

话题同步到我的动态回帖

2021实习算法的一点面经内部员工回复

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

近期精华帖

热门推荐

2021实习算法的一点面经 内部员工回复

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐

2021实习算法的一点面经内部员工回复