1、 自我介绍
3、 然后就开始问统计的东西(感觉是怕我没学吧)…
(1) 参数估计和假设检验,分别是什么?区别
(2) (我不知道为啥扯到置信区间、置信度了)说下置信区间、置信度
(3) 说下协方差(我说成评价是否相关,如果协方差为0,那么两个随机变量是不相关的。(这句话可以这么说,但不能说是评价相关的,结果被反问,那相关系数是什么?)
4、机器学习的东西知道吗?——(照以前肯定理直气壮的说知道,现在觉得自己菜了,太怂了,说知道一点吧…)
(1) 集成学习,xgboost之前有个GBDT,听说过吗?
答:哦,主成分分析(然后我就不说了…天,人家面试官是想让我继续介绍啊,然后尴尬的冷静了几秒,我继续讲)(然鹅这些都没看啊,名称叫啥不知道了-主成分-我叫成主成分向量…)
(3)EM算法知道吗(天,我一直觉得这个很偏,没怎么看),大致说了下分为E步、M步。
(好吧越来是数据挖掘10大算法…)继续问:和k-means的区别?(我非常糟糕的说了句,区别,我怎么觉得和k-means没关系…好吧,K.O.)k-means是EM算法的特例。
(4) K-means 算法的优缺点
(5) 评价指标(之前说召回率\ROC\AUC曲线,直接被打回来,k-means是无监督的吧?本来就不存在label怎么判断)改:SSE那些簇间距离/簇内距离(天哪以前面数分,发现从来没人问数据挖掘,聚类那些就没怎么看)
(6) 那,表示距离的指标有哪些?(又是记不清了)l1,l2,lp,马氏距离….
5、数据缺失怎么办?
(这里我说到了一种就是缺失的比较多 同时指标不怎么重要的时候,被反问:不重要就删?你还没预测呢怎么知道不重要呢)6、常用什么?python;我看你有pandas,问:
8、说下你的实习(讲完了没有什么反应,可能不相关吧)
全部评论
(11) 回帖