20*3选择题,2道简答题,大多数是统计概率。唉,题目不难,可我这个半瓢水做得太差了。以下是记得的一些题,如果有错误欢迎大家指出。
1. 自助取票平均等待时间6min,服从指数分布,为了不误车,15min内完成,取票完到火车口需要6min,不误车的概率为
2. 公交车出现事故的次数服从【泊松分布】?
3. 数据分析师应该避免【A数据没有噪声 B抛开基数谈增长 C简单排除异常点 D考虑数据的季节性 ABC】
4. 数据清理有,不记得了,多选,选了一个异常值、缺失值处理
5. 99% 置信区间(252个交易日)var =22.38,求每日95%置信区间下的var
6. 两用户活跃度(点击次数、平均停留时长)与偏好(产品颜色、产品尺寸)分别用【欧式距离、余弦距离】??
7. 适合t检验的样本分布特点
T检验主要用于样本含量比小,总体标准差未知的正态分布
T检验主要用于样本含量比小,总体标准差未知的正态分布
8. pca错误的是(多选)
pca是非线性降维
协方差矩阵得出的特征值不唯一
需要先经过标准化处理
原始变量总方差
9. 95%可能日违约次数不超过10次,哪种情况模型需要改进
近一年违约次数超过10次有15天
10. 用于数据转换的方法[A对数、B倒数、C相反数D指数 AB]
对数转换、平方根转换、平方根正弦转换、平方转换、倒数变换
对数转换、平方根转换、平方根正弦转换、平方转换、倒数变换
11. Var的计算方法【正态和蒙特卡洛】
Var是Value at Risk的缩写,旨在估计给定金融资产或者资产组合在未来资产价格波动下的潜在损失
Var的计算方法包括:正态方法、历史模拟法、蒙特卡罗模拟法
Var是Value at Risk的缩写,旨在估计给定金融资产或者资产组合在未来资产价格波动下的潜在损失
Var的计算方法包括:正态方法、历史模拟法、蒙特卡罗模拟法
12. 关于假设检验的第一类错误和第二类错误
第一类错误:原假设为真,拒绝原假设为第一类错误
第二类错误:原假设为假,接受原假设为第二类错误
第一类错误:原假设为真,拒绝原假设为第一类错误
第二类错误:原假设为假,接受原假设为第二类错误
13. 分类与预测的算法【A决策树、B支持向量机、C贝叶斯网络、D人工神经网络 ABCD】
二、简答题40分,2个题
(1)给一个场景,其在训练集上分类效果好,在实际应用中分类效果差,问你什么原因?
(1)给一个场景,其在训练集上分类效果好,在实际应用中分类效果差,问你什么原因?
答:样本不均衡
(2)阐述数据归一化有哪些常用方法,为什么要使用数据归一化?
(2)阐述数据归一化有哪些常用方法,为什么要使用数据归一化?
最近有点累,大多数笔试做完都是毫无消息的状态,今晚的笔试我就破罐子破摔了,本科学的概率论与统计早就忘了,复兴得也不充分,把题目发出来警醒一下自己吧。虽然大多数公司都是已读不回状态,但是自己还是要调整好心态,尽量多准备,把自己会做的做好。加油,欧力给!!!
全部评论
(9) 回帖