一小时,好多统计学相关的忘了,稍微整理一下
针对之前的实习,里面每个操作都进行了深入的质问
Q:对部分账号采取曝光优先的策略,怎么判断之后ctr的上升是因为这个曝光增加的策略
A:ab-test,假设检验,我只会解释原理,问我具体怎么做,晕
Q:怎么判断账号CTR、时长等指标的有没有异常值
A:假设服从正态分布,看大于均值1/2/3个方差
Q:讲一下箱型图,怎么根据箱型图判断异常值
A:箱型图略,第二个不会
Q:除了正态分布,还有什么方法找出异常值
A:机器学习,回归
Q:回归分析的时候,怎么判断异常点
A:库克距离,杠杆值
Q:回归分析,变量间有相关性怎么办
A:降维,主成分分析PCA
Q:讲一下PCA原理,如果降维后发现维度没有下降,为什么,怎么办
A:不可能,降维根据特征值排的,可以根据人工选;如果降维后的变量要很多个才能让总方差超过80%,那之前的相关性也不大吧
Q:聚类算法的原理,怎么确定k,怎么确定停止条件。
A:略
Q:随机森林和xgboost有什么区别;随机森林的随机性体现在哪两个步骤
A:略;样本抽样、特征抽样
Q:boosting和bagging有什么区别,模型融合除了boosting和bagging还有什么方法
A:减小偏差和减小方差;不会
Q:怎么判断机器学习模型的好坏,解释一下ROC、AUC,如果过拟合,roc曲线会长什么样
A:略,不清楚
Q:特征工程,怎么判断这个特征好不好,怎么筛选特征
A:随机森林变量的重要性排序,其他忘了
Q:python深浅拷贝,什么时候用等号赋值是浅拷贝,什么时候是深拷贝
A:深浅拷贝知道,但是只知道dataframe用等号赋值是浅拷贝
Q:GMV下降怎么分析,怎么判断gmv波动是否异常
A:定位到具体渠道,分内部和外部原因分析(当时忘了gmv是啥,但还是按照指标异动模板答了);异常?还是正态分布那些。。
Q:手撕sql:一列时间(202008112030),一列状态(1/0),选出最新的状态连续为0的数据
202008111920 | 0 |
202008111921 | 0 |
202008111930 | 1 |
202008111931 | 1 |
202008111923 | 0 |
202008111924 | 0 |
A:我当时排序之后写了个自连接,但是面试官说会把最上面两条也选出来
全部评论
(8) 回帖