00002. 1. 项目相关提问
00003. 项目相关提问我只列举一下可能对大家有借鉴意义的问题。
00004. 1.有没有观察单个特征和标签之间的联系
00005. 2.每次加入一个特征,如果效果没有提升则不使用该特征。那怎么处理特征组合的问题。(组合后可能变好或者差)
00006. 3. ID embedding怎么做
00007. 4. 项目中Embedding学习到的是什么,特征交叉的作用是什么
00008. 5.为什么使用DeepFM来进行特征交叉
00009. 6. DeepFM和Deep&Wide区别,写一下FM公式,DeepFM优点
00010. 7. DeepFM只是简单的交叉,其他复杂点的对特征进行交叉的网络了解吗
00011. 8.你说你发现了训练集和测试集分布不一致的问题。你是怎么发现这个问题的,怎么诊断定位,除了可视化还有没有其他直观的指标
00012. 1.对于一个算法课题,你觉得最重要的几个环节有哪些。
00013. 2. 项目遇到了什么困难,如何解决?
00014. 3. 项目取得了啥效果,项目的核心提升是哪些操作
00015. 4. 项目中使用了哪些特征?如果要继续改进的话,还可以使用哪些特征?
00016. 5.有没有使用其他更好的算法来解决问题
00017. 6.你觉得你做的项目还有哪些地方可以做优化
00018. 7. 项目遇到瓶颈,反映在业务上是怎么样的,你要怎么去解决这个问题
00019. 8.有没有调研过业界的做法
00020. 1.你的比赛任务,四分类,评估指标用auc合理吗
2.比赛的LSTM和CNN是怎么用的,为什么可以用。讲一下RNN和CNN的区别,为啥在你这个比赛中LSTM比CNN效果好
00021. 2. 机器学习基础相关提问
00022. 特征相关
00023. 1.讲一下特征工程
00024. 2.类别特征编码方式有哪些?如何解决target encoding的target leakage?count encoding有个缺点:测试集和训练集分布不同,导致特征频率不一样。怎么解决?
00025. 3.如何进行特征选择
00026. 4. 项目中如何做交叉特征,为什么这样交叉,基于业务意义?
00027. 5.为什么需要计算特征重要性,计算特征重要性的方法有哪些
00028. 6.连续特征怎么分箱,如何判断分箱的结果是好是坏
00029. 7.特征平滑方法有哪些
00030. 8.怎么处理长尾问题,从样本,模型的角度来看,从优化器的角度来看
00031. 9.什么样的ID经过Embedding后可能有效,如何筛选有效的ID。有些ID数量级很大,怎么处理
00032. 神经网络相关
00033. 1.神经网络如何跳出局部最优
00034. 2.神经网络如何缓解过拟合, 讲一下dropout,dropout训练和预测的时候有什么不同,dropout操作类似于机器学习中的什么操作
00035. 3. batch normalization和layer normalization区别,写一下bn公式
00036. 4.优化器了解哪些,adam相对sgd的改进
00037. 5.激活函数的作用,各个激活函数的优缺点
00038. 6. tf处理特征的类有没有了解(tf.feature_column)
00039. 7.讲一下word2vec,有哪两种形式,词的数量比较多,分类时怎么优化,word2vec怎么做负采样
00040. 8. item2vec有没有了解
00041. 9.多分类如果有10000类别,怎么优化
00042. 10. graph embedding了解吗,神经网络做graph embedding了解吗
00043. 11.讲一下图神经网络
00044. 12. tf embedding_lookup原理
00045. 13.文本分类有了解吗,说一下textcnn
00046. 14.如何缓解RNN的梯度消失
00047. 15.讲一下LSTM。LSTM为啥能缓解梯度爆炸和梯度消失?LSTM激活函数可以使用relu吗
00048. 16. 排序算法了解吗?说了快排,归并,冒泡等(后面发现好像问的是ctr中的排序算法)
00049. 17.了解哪些推荐算法,nlp的预训练模型了解吗,attention, transformer,bert了解吗
00050. 18. CNN和RNN在实际使用中有哪些优缺点?NLP中,什么情况下使用CNN,什么情况下使用RNN?
00051. 19.神经网络权重全0初始化会有什么问题?应该怎样初始化?讲讲Xavier初始化
00052. 树模型相关
00053. 1.树模型怎么处理连续特征
00054. 2.随机森林的随机性体现在哪里?boosting和bagging区别。随机森林是不是树越多越好。随机森林采样是有放回采样还是无放回采样
00055. 3. c4.5用来解决ID3什么问题,gbdt和rf分别是集成的什么思想,解决什么误差
00056. 4. GBDT怎么生成一个新的树,怎么确定叶子节点的权重
00057. 5.随机森林和xgboost那个树的深度更深
00058. 6. XGBoost和GBDT的不同,为啥XGBoost选择决策树作为基分类器?
00059. 7. XGBoost和GBDT分裂叶子节点的不同之处,写一下XGBoost计算节点分裂收益的公式
00060. 8. XGBoost如果损失函数没有二阶导,该怎么办
00061. 9. GBDT和XGBoost用什么基分类器,如何分裂叶子节点,处理分类问题和回归问题有啥不同
00062. 10. Lightgbm相比于XGBoost的改进,LightGBM为什么比GBDT快。LightGBM怎么做并行
00063. 11.看过XGBoost, Lightgbm等的源码没?(没有。。)
00064. 12.讲一下bagging,boosting,stacking
00065. 13. stacking和nn的区别?(nn也可以搭积木,拼接)
00066. 其他
00067. 1.哪些算法需要对特征先进行归一化,这类算法有什么特点,不进行归一化的缺点是?
00068. 2.如何解决过拟合,讲一下L1和L2,L1为啥能得到稀疏解
全部评论
(0) 回帖