楼主近期参加了阿里的数据分析师社招,很遗憾在二面的时候挂了,自己的专业知识还是不过关吧。希望下次准备好的时候,能在大厂的面试走的更远一点。
下面分享一面的面经,后面的答案有些是面试的时候回答的,有些是楼主复盘的时候百度上去的,仅供参考。
一面:
1.自我介绍
2. 首先介绍自己的课程,课程内容。然后面试官挑了应用回归分析,还有数据挖掘这两门课问。
3. 怎么选取自变量和因变量,就一个例子说明一下,比如说股价的分析。每个因素对自变量的影响有高有低,怎么筛选合适的变量,有哪些方法。(相关性分析,卡方检验)
4. P值的原理,p值是将观察结果认为有效即具有总体代表性的犯错概率。
5. 第一类错误和第二类错误
6. 贝叶斯估计,全概率公式。
7. Kmeans聚类,kmeans的优点,迭代速度比较快,缺点:k值不好把握,不能定性计算,初始聚类中心不好选择。
8. knn近邻的原理,用了什么距离,一定要用欧式距离吗?
9. SVM选择最优分类面的原理是什么。
10. 如何选择特征,
留一交叉验证:k折交叉验证法,K折就是讲数据集切分成K小块,验证集和测试集相互形成补集,循环交替:平均估计预测误差最小。其他选择模型标准:R^2,AIC,BIC。
启发式搜索:序列前向选择,sequential forward selection,特征子集从空集开始。序列后向选择,sequential backward selection,从特征全集开始。双向搜索,当两者搜到一个相同的特征子集停止搜索。
11. 随机森林和GBDT,xgboost之间的差异和联系。
12.假设检验的原理:
小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。
对总体样本的某个假设是真实的,那么不利于(或不支持)这一假设的事件A在一次试验中是几乎不可能发生的;要是在一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。
13.然后根据简历进行深挖
a) 如何数据清洗,为什么要进行可视化,如果游戏的销量突然上涨,接下来有什么动作?------分析外部和内部的影响因素,外部:竞争对手,周期性(高考),内部:游戏内部活动(抽奖,节日活动),或者是营销活动(那这个活动的渠道好不好,是这个活动的哪部分渠道销售量增加,或者哪个地区的销售量增加,然后分析这个活动的优势在哪里,可以针对性的使用。)
b) 信用审核有用策略吗,风险政策是怎么做的,
c) 挑战杯,有没有考虑到发放调查问卷的时候,调查的群体会有偏差,没法代表整个群体
d) 7个月的论文当中有遇到什么困难吗
14. 对于数据分析有什么理解
数据分析流程:先拿到问题,要解决的问题是什么,进行分解,需要什么样的数据。结合背景的业务知识,有目的的进行数据清洗,看策略能不能解释问题。做建模性质或者特征工程,看效果是否满足,如果不满足,就反复迭代找问题。对人的要求蛮高的,是一个综合性的工作,需要数据分析的专业素养,需要数据敏感性,还要学开发有哪些基础知识,业务有什么知识。挺锻炼人的。(这段是面试官给我的解释)
15. 反问:对应届生的期望
软件不是核心点,重要的是学习能力,思考问题的角度,遇到困难怎么去解决困难。
全部评论
(3) 回帖