Bladefire

发布于 2021-07-27 23:32

+ 关注

最近一些开发岗社招面试题目汇总

最近面试了一些公司，其中包括招银网络、度小满等，我把其中涉及的技术问题按照知识点分类记录了下来，希望对大家有所帮助。

00001. 面经总结

00002. 1. 项目相关提问

00003. 项目相关提问我只列举一下可能对大家有借鉴意义的问题。

00004. 1.有没有观察单个特征和标签之间的联系

00005. 2.每次加入一个特征，如果效果没有提升则不使用该特征。那怎么处理特征组合的问题。（组合后可能变好或者差）

00006. 3. ID embedding怎么做

00007. 4. 项目中Embedding学习到的是什么，特征交叉的作用是什么

00008. 5.为什么使用DeepFM来进行特征交叉

00009. 6. DeepFM和Deep&Wide区别，写一下FM公式，DeepFM优点

00010. 7. DeepFM只是简单的交叉，其他复杂点的对特征进行交叉的网络了解吗

00011. 8.你说你发现了训练集和测试集分布不一致的问题。你是怎么发现这个问题的，怎么诊断定位，除了可视化还有没有其他直观的指标

00012. 1.对于一个算法课题，你觉得最重要的几个环节有哪些。

00013. 2. 项目遇到了什么困难，如何解决？

00014. 3. 项目取得了啥效果，项目的核心提升是哪些操作

00015. 4. 项目中使用了哪些特征？如果要继续改进的话，还可以使用哪些特征？

00016. 5.有没有使用其他更好的算法来解决问题

00017. 6.你觉得你做的项目还有哪些地方可以做优化

00018. 7. 项目遇到瓶颈，反映在业务上是怎么样的，你要怎么去解决这个问题

00019. 8.有没有调研过业界的做法

00020. 1.你的比赛任务，四分类，评估指标用auc合理吗
2.比赛的LSTM和CNN是怎么用的，为什么可以用。讲一下RNN和CNN的区别，为啥在你这个比赛中LSTM比CNN效果好

00021. 2. 机器学习基础相关提问

00022. 特征相关

00023. 1.讲一下特征工程

00024. 2.类别特征编码方式有哪些？如何解决target encoding的target leakage？count encoding有个缺点：测试集和训练集分布不同，导致特征频率不一样。怎么解决？

00025. 3.如何进行特征选择

00026. 4. 项目中如何做交叉特征，为什么这样交叉，基于业务意义？

00027. 5.为什么需要计算特征重要性，计算特征重要性的方法有哪些

00028. 6.连续特征怎么分箱，如何判断分箱的结果是好是坏

00029. 7.特征平滑方法有哪些

00030. 8.怎么处理长尾问题，从样本，模型的角度来看，从优化器的角度来看

00031. 9.什么样的ID经过Embedding后可能有效，如何筛选有效的ID。有些ID数量级很大，怎么处理

00032. 神经网络相关

00033. 1.神经网络如何跳出局部最优

00034. 2.神经网络如何缓解过拟合，讲一下dropout，dropout训练和预测的时候有什么不同，dropout操作类似于机器学习中的什么操作

00035. 3. batch normalization和layer normalization区别，写一下bn公式

00036. 4.优化器了解哪些，adam相对sgd的改进

00037. 5.激活函数的作用，各个激活函数的优缺点

00038. 6. tf处理特征的类有没有了解（tf.feature_column）

00039. 7.讲一下word2vec，有哪两种形式，词的数量比较多，分类时怎么优化，word2vec怎么做负采样

00040. 8. item2vec有没有了解

00041. 9.多分类如果有10000类别，怎么优化

00042. 10. graph embedding了解吗，神经网络做graph embedding了解吗

00043. 11.讲一下图神经网络

00044. 12. tf embedding_lookup原理

00045. 13.文本分类有了解吗，说一下textcnn

00046. 14.如何缓解RNN的梯度消失

00047. 15.讲一下LSTM。LSTM为啥能缓解梯度爆炸和梯度消失？LSTM激活函数可以使用relu吗

00048. 16. 排序算法了解吗？说了快排，归并，冒泡等（后面发现好像问的是ctr中的排序算法）

00049. 17.了解哪些推荐算法，nlp的预训练模型了解吗，attention, transformer，bert了解吗

00050. 18. CNN和RNN在实际使用中有哪些优缺点？NLP中，什么情况下使用CNN，什么情况下使用RNN？

00051. 19.神经网络权重全0初始化会有什么问题？应该怎样初始化？讲讲Xavier初始化

00052. 树模型相关

00053. 1.树模型怎么处理连续特征

00054. 2.随机森林的随机性体现在哪里？boosting和bagging区别。随机森林是不是树越多越好。随机森林采样是有放回采样还是无放回采样

00055. 3. c4.5用来解决ID3什么问题，gbdt和rf分别是集成的什么思想，解决什么误差

00056. 4. GBDT怎么生成一个新的树，怎么确定叶子节点的权重

00057. 5.随机森林和xgboost那个树的深度更深

00058. 6. XGBoost和GBDT的不同，为啥XGBoost选择决策树作为基分类器？

00059. 7. XGBoost和GBDT分裂叶子节点的不同之处，写一下XGBoost计算节点分裂收益的公式

00060. 8. XGBoost如果损失函数没有二阶导，该怎么办

00061. 9. GBDT和XGBoost用什么基分类器，如何分裂叶子节点，处理分类问题和回归问题有啥不同

00062. 10. Lightgbm相比于XGBoost的改进，LightGBM为什么比GBDT快。LightGBM怎么做并行

00063. 11.看过XGBoost, Lightgbm等的源码没？（没有。。）

00064. 12.讲一下bagging，boosting，stacking

00065. 13. stacking和nn的区别？（nn也可以搭积木，拼接）

00066. 其他

00067. 1.哪些算法需要对特征先进行归一化，这类算法有什么特点，不进行归一化的缺点是?

00068. 2.如何解决过拟合，讲一下L1和L2，L1为啥能得到稀疏解

已采纳

采纳

精彩回帖

精彩

全部评论

(0) 回帖

加载中...

话题同步到我的动态回帖

最近一些开发岗社招面试题目汇总

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

近期精华帖

热门推荐

最近一些开发岗社招面试题目汇总

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐