1. 自我介绍
2. 直接上笔试题,中等难度,最长回文串
3. one-hot编码和label-encoder编码区别,分不同情况怎么选择?树模型用哪种?
4. 说一下常见缺失值处理办法
5. 说一下过拟合和欠拟合,以及如何解决过拟合(至少三个)
6. 简单介绍一下XGB,GBDT和RF的原理和区别
7. 深度学习梯度消失的原因有哪些,如何解决?梯度爆炸呢?
8. 常见的评估指标有哪些,回归、分类、图像以及你擅长的项目中。
9. 数据不平衡的处理办法以及如何在评估指标中选择?
10. XGB的常见参数以及它防止过拟合的办法?
11. LSTM和RNN了解吗,简单说一下二者的区别和联系?LSTM除了在门上有改进以外,还有哪些策略值得关注?
12. Spark和scala用过吗,说一下RDD和Dataframe的区别,RDD有数据展示吗?
13. 常见的损失函数以及优化器了解哪些?说一下训练时配置的过程。
14. 说一下你实习的推荐相关的经历,大致流程是怎样的,实现什么目标?
15. 反问:虎牙机器学习算法主要业务方向和技术栈?
答:第一个业务:已有用户的直播界面视频推荐以及直播间的短视频推荐;第二个业务:用户增长广告算法,对僵尸用户和新用户拉活,投放广告和安排等。
总结:一面整体偏基础,基本上都回答上了,深度学习板块的RNN和LSTM了解不深因此说的比较浅,还有就是spark框架也没接触多少,只说了自己在使用过程中的感受。
全部评论
(6) 回帖