首页 > 最近一些开发岗社招面试题目汇总
头像
Bladefire
发布于 2021-07-27 23:32
+ 关注

最近一些开发岗社招面试题目汇总

最近面试了一些公司,其中包括招银网络、度小满等,我把其中涉及的技术问题按照知识点分类记录了下来,希望对大家有所帮助。
00001. 面经总结

00002. 1. 项目相关提问

00003. 项目相关提问我只列举一下可能对大家有借鉴意义的问题。

00004. 1.有没有观察单个特征和标签之间的联系

00005. 2.每次加入一个特征,如果效果没有提升则不使用该特征。那怎么处理特征组合的问题。(组合后可能变好或者差)

00006. 3. ID embedding怎么做

00007. 4. 项目中Embedding学习到的是什么,特征交叉的作用是什么

00008. 5.为什么使用DeepFM来进行特征交叉

00009. 6. DeepFM和Deep&Wide区别,写一下FM公式,DeepFM优点

00010. 7. DeepFM只是简单的交叉,其他复杂点的对特征进行交叉的网络了解吗

00011. 8.你说你发现了训练集和测试集分布不一致的问题。你是怎么发现这个问题的,怎么诊断定位,除了可视化还有没有其他直观的指标

00012. 1.对于一个算法课题,你觉得最重要的几个环节有哪些。

00013. 2. 项目遇到了什么困难,如何解决?

00014. 3. 项目取得了啥效果,项目的核心提升是哪些操作

00015. 4. 项目中使用了哪些特征?如果要继续改进的话,还可以使用哪些特征?

00016. 5.有没有使用其他更好的算法来解决问题

00017. 6.你觉得你做的项目还有哪些地方可以做优化

00018. 7. 项目遇到瓶颈,反映在业务上是怎么样的,你要怎么去解决这个问题

00019. 8.有没有调研过业界的做法

00020. 1.你的比赛任务,四分类,评估指标用auc合理吗
2.比赛的LSTM和CNN是怎么用的,为什么可以用。讲一下RNN和CNN的区别,为啥在你这个比赛中LSTM比CNN效果好

00021. 2. 机器学习基础相关提问

00022. 特征相关

00023. 1.讲一下特征工程

00024. 2.类别特征编码方式有哪些?如何解决target encoding的target leakage?count encoding有个缺点:测试集和训练集分布不同,导致特征频率不一样。怎么解决?

00025. 3.如何进行特征选择

00026. 4. 项目中如何做交叉特征,为什么这样交叉,基于业务意义?

00027. 5.为什么需要计算特征重要性,计算特征重要性的方法有哪些

00028. 6.连续特征怎么分箱,如何判断分箱的结果是好是坏

00029. 7.特征平滑方法有哪些

00030. 8.怎么处理长尾问题,从样本,模型的角度来看,从优化器的角度来看

00031. 9.什么样的ID经过Embedding后可能有效,如何筛选有效的ID。有些ID数量级很大,怎么处理

00032. 神经网络相关

00033. 1.神经网络如何跳出局部最优

00034. 2.神经网络如何缓解过拟合, 讲一下dropout,dropout训练和预测的时候有什么不同,dropout操作类似于机器学习中的什么操作

00035. 3. batch normalization和layer normalization区别,写一下bn公式

00036. 4.优化器了解哪些,adam相对sgd的改进

00037. 5.激活函数的作用,各个激活函数的优缺点

00038. 6. tf处理特征的类有没有了解(tf.feature_column)

00039. 7.讲一下word2vec,有哪两种形式,词的数量比较多,分类时怎么优化,word2vec怎么做负采样

00040. 8. item2vec有没有了解

00041. 9.多分类如果有10000类别,怎么优化

00042. 10. graph embedding了解吗,神经网络做graph embedding了解吗

00043. 11.讲一下图神经网络

00044. 12. tf embedding_lookup原理

00045. 13.文本分类有了解吗,说一下textcnn

00046. 14.如何缓解RNN的梯度消失

00047. 15.讲一下LSTM。LSTM为啥能缓解梯度爆炸和梯度消失?LSTM激活函数可以使用relu吗

00048. 16. 排序算法了解吗?说了快排,归并,冒泡等(后面发现好像问的是ctr中的排序算法

00049. 17.了解哪些推荐算法,nlp的预训练模型了解吗,attention, transformer,bert了解吗

00050. 18. CNN和RNN在实际使用中有哪些优缺点?NLP中,什么情况下使用CNN,什么情况下使用RNN?

00051. 19.神经网络权重全0初始化会有什么问题?应该怎样初始化?讲讲Xavier初始化

00052. 树模型相关

00053. 1.树模型怎么处理连续特征

00054. 2.随机森林的随机性体现在哪里?boosting和bagging区别。随机森林是不是树越多越好。随机森林采样是有放回采样还是无放回采样

00055. 3. c4.5用来解决ID3什么问题,gbdt和rf分别是集成的什么思想,解决什么误差

00056. 4. GBDT怎么生成一个新的树,怎么确定叶子节点的权重

00057. 5.随机森林和xgboost那个树的深度更深

00058. 6. XGBoost和GBDT的不同,为啥XGBoost选择决策树作为基分类器?

00059. 7. XGBoost和GBDT分裂叶子节点的不同之处,写一下XGBoost计算节点分裂收益的公式

00060. 8. XGBoost如果损失函数没有二阶导,该怎么办

00061. 9. GBDT和XGBoost用什么基分类器,如何分裂叶子节点,处理分类问题和回归问题有啥不同

00062. 10. Lightgbm相比于XGBoost的改进,LightGBM为什么比GBDT快。LightGBM怎么做并行

00063. 11.看过XGBoost, Lightgbm等的源码没?(没有。。)

00064. 12.讲一下bagging,boosting,stacking

00065. 13. stacking和nn的区别?(nn也可以搭积木,拼接)

00066. 其他

00067. 1.哪些算法需要对特征先进行归一化,这类算法有什么特点,不进行归一化的缺点是?

00068. 2.如何解决过拟合,讲一下L1和L2,L1为啥能得到稀疏解


更多模拟面试

全部评论

(0) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐