首页 > 回馈篇!数据分析面经汇总
头像
Prophet7
编辑于 2020-05-06 17:34
+ 关注

回馈篇!数据分析面经汇总

感谢大家的建议,现在正式收到亚马逊offer,准备暑期上岸啦~

从三月初到现在,经历快两个月的时间,真的很折磨。。也会有阴错阳差的感觉,并没有选择去“理想意义”、与专业和前景很匹配的岗位和公司,确实心里会有前期准备及自己的专业有点浪费的感受,但综合考虑后,也是随心所向,去体验一把从未有过的味道,说不定就非常适合自己呢~暑期实习对于我来说,倒更像是较高成本的试错和赌博,当然还是会好好准备七月就开始的互联网秋招!

这次暑期实习的准备选用的海投战术,现在回看其实浪费了很多时间精力在不必要的岗位/公司上(当时只觉得好玩,后来就意识到时间成本的问题了w)选择性整理了一些可能对大家有用的面经~(也记不太全了,能写的都写了)


腾讯-数据分析

3.15 网申

3.18 WXG一面 60min

小哥哥问的全是数学题。。。

概率的定义(样本空间、事件域、概率/测度)

事件域的定义

中心极限定理

实变函数(勒贝格积分、黎曼积分)

假设检验的定义、例子

p值定义

假设检验具体case:微信新功能上线,如何判断新功能对微信群体的停留时长有什么影响(无/好/差),明确零假设,明确两个均值是使用前的总体平均停留时长和使用后的总体平均停留时长;抽取10万用户使用新功能,总10亿用户,可近似看成有放回的总体;两组样本构造检验统计量;回忆假设检验原理(如何拒绝原假设:在原假设成立的条件下统计量服从某分布,若统计量落到了几乎不可能发生的区域,则有极大的信心去推翻原假设);统计量的绝对值大于正态分布分位数

假设检验case升级:给定义“曝光点击率”,每个个体有曝光数和点击数,关心有无新功能的总体曝光数的和与总体点击数的和的比例差异,不能使用cauchy分布;提示:进行一些转换变成已知的问题,比如用Taylor展开,用近似的方法变成一系列简单的分布的组合(???)

case3:产品经理使用假设检验来看有没有用,在第一天抽取10万用户做了假设检验,p值不到置信水平,在第二天抽取10万用户,与第一天的10万合并,20万用户做了假设检验,p值还不到置信水平;直到第七天,p值达到,认为新功能可以上线了!这样做有没有什么问题?结论可靠吗?

第一类错误和第二类错误定义

第一类错误正常情况下发生的概率和检验水平的关系

产品经理的行为犯了哪一类错误(第一类,对用户总体可能没有影响,但有较大概率会得到结论说有提高效果)

假设检验的连续观测问题,p-test是固定样本检验


凉 被捞后台开发 直接放弃 然后再无音讯。。



快手-数据科学

3.13 网申+在线测评

3.22 笔试

SQL*3+数据科学*2

1.用户注册表(user_id, 用户id全局唯一, 如11111;label, 用户实际label, bool 0或1;score, 模型预测score, 范围0.0~1.0)

每一行记录一个用户真实的label,然后用一个二分类模型预测出来的对应每一个用户的score,范围是0~1

请随机输出500个阈值点下的precision recall曲线

2.用户注册表(user_id, 用户id全局唯一, 如11111;register_date, 注册时间, 2019-08-01 16:00:40;country, 注册国家, 中国)

查询注册用户最多跟最少的国家;查询每个国家第一个注册跟最后一个注册的用户id

(Union两个subquery 一个选max一个选min)

3.视频表(user_id, 用户id全局唯一;photo_id, 视频id全局唯一;timestamp, 观看视频时间戳)

视频标签表(photo_id, 视频id全局唯一;photo_tag, 视频标签, 如搞笑)

视频表中记录的是每一个用户观看的每一个视频的时间戳,视频标签表记录的事每一个视频对应的标签

统计用户观看的最后一个视频的photo_tag分布

4.y1,…,yn为真实值,yhat1,…,yhatn为拟合值,回归模型拟合结果存储在DataFrame,用代码展示结果RMSE和R^2.

5.随机事件包含a,b,c,d四种情况,概率分别为0.1,0.2,0.3,0.4,设计一符合该概率的采样方法(如输出长度为N的包含字符串a,b,c,d的list,且a,b,c,d的出现概率分别为0.1,0.2,0.3,0.4)


4.02 一面 55min

地铁项目(改进算法)

社区挖掘项目(算法介绍、用的什么包、怎么实现的)

实习爬虫相关

如何证明不存在最大质数(反证法,假设存在,那么将所有小于等于它的质数相乘+1得到的也是质数,矛盾)

抛硬币10000次,7000次朝上,求置信区间(中心极限定理)

一个家庭有两个孩子,其中一个是女孩,那么另一个也是女孩的概率是多少

用过快手/抖音/b站吗

推荐视频有曝光数据,给一个表,user_id, vedio_id, timestramp, is_click

点开第一条视频的满足感为3,第二到五条的满足感为1,大于等于六为0;任意选一条记录,问平均满意度

(说复杂了。。其实只要给每个记录一个满意度,取个均值就好了)


4.03 二面 82min

自己觉得比较好的项目,深挖(测试集是整个图吗?只是删掉的图吗?时间复杂度?)

项目对快手有什么价值?(可能认识的人,等等)

有没有实习,做了什么(建议我简历里实习要写清楚,找都找不到。。)

概率论/随机过程题目:一个自然数坐标上的点,0.7的概率向后一步,0.3的概率回到0,求首次返回0的时间Y的期望(答得不好。。服从几何分布,均值为1/p)

三扇门经典题目:要不要换门(答得也不好。。条件概率把自己绕晕了,其实不换的话什么都没变,还是1/3,换的话就是事情的反面,就是2/3)

python算法题:给定任务的开始时间、结束时间和总体最大时间,求整个时间段内能够完成的最大任务数

(只讲到排序,实际上是贪心算法,每次选取最后开始的任务并且将最大时间更新为该任务的起始值,复杂度nlog(n))

机器学习variance-bias-tradeoff的理解

方差偏差怎么体现在决策树上(答了bagging和boosting)

视频数据非常长尾,需不需要处理?需要的话怎么处理(对数变换);为什么其实不需要处理(中心极限定理)

有没有学习过计量经济学

会不会sql


4.19 HR面 22min

实习情况?职业规划?(可以做的岗位和方向非常多,怎么考虑?)

其他公司的进度?怎么选择?

(表明不会只看公司和平台,更重要的是组/团队,leader,能够收获的东西)

对城市的倾向?



京东-夏令营数据挖掘、春季数据分析(但似乎是搞数据挖掘的)

3.14 网申

3.27 夏令营在线测评

4.03 夏令营一面 70min

未来规划(纯算法还是偏业务)

项目/实习中最自豪的事

公司没有人带我做事,面对全新的东西/领域,怎么办

近一两年来最大的变化

本科四年数学的收获、什么地方让你觉得和纯数学不match

最近挫败感的事

兴趣爱好

业务题(3道):

1. 变换用户价值,如何衡量用户的价值?

2.如何预测用户流失的风险?假设内部所有行为数据都可获得,比如浏览、下单等情况及个人信息,如所在地、性别、年龄等

3.用什么工具、语言、方法来做2会比较顺利,容易出成果,理由


4.13 夏令营二面 40min

最成功的项目 为什么觉得很有成就

项目中遇到的困难(答了原始数据的获取 高质量数据的重要性)

现在回想这个项目 还有什么可以改进的地方

如果拿到的数据不好 怎么办

工作中如果遇到没有很感兴趣的事 怎么应对

最近半年除了专业知识上有什么别的收获 新学习了什么

在京东暑期实习你觉得可以收获什么 为什么要来

从用户体验的角度衡量电商平台,评估模型(提示下答了物流、推荐商品、红包/优惠券、售后服务等)


4.17 夏令营HR面 25min

学生会经历 遇到的问题 现在看怎么复盘

为什么研究生读这个专业

学生生涯最满意/遗憾的事

为什么想去互联网

一直在上海,为什么来北京

最看重平台的什么

未来三五年的职业规划


4.18 春季笔试

4.23 春季一面 40min

Kmeans 衡量效果 距离定义 k怎么取 优化方法 其他的聚类方式

地铁网络项目介绍 数据和日常体验一致是怎么得出来的(。。)

介绍广度优先 深度优先 啥啥多叉树(。。??没听懂)

对过拟合的理解 为什么会产生这种现象 怎么解决

介绍PCA

用户推荐系统介绍

平时用什么语言比较多 会c++吗

例行做题(数组返回最大连续子序列的和,动态规划,状态转移方程: dp[i]=max{A[i], dp[i-1]+A[i]})

反馈是:“总体很不错,需要提升数据结构,优化内存和时间,主要用的数据结构是树和图;不排除二面面试官问数据结构的问题”


4.27 春季二面 35min

介绍社区挖掘项目 模块度的定义 随机删除连边真的随机吗

有哪些相似度定义

垃圾邮件相关 如何判断是用户还是网络爬虫 如何选取指标 选用什么模型

对可解释性的理解

代码 字符串转换为数字

两个用户的相同兴趣 怎么建模(相似购买记录/浏览记录/收藏等,onehot编码但是可能算法不好 改进没讲 说应该和协同过滤有关 没有太深研究)

地铁路网项目 换乘等效为两站地铁怎么衡量 怎么评价模型的好坏 指标含义

反馈是:“逻辑好,思维清晰,没啥好改进的”(这是我收到的最高评价了hh)


等春季HR面中



微软-Software Engineer Intern (Data Mining/Algorithm/Machine Learning) - STCA

3.09 网申

3.25 笔试(挂了 转技术支持)

4.24 两场技术面 30min*2

一面:

了解技术支持这个岗位吗(答:技术+业务+逻辑,解决客户的问题)

有什么优势和弱点

想在这个暑期实习里收获什么

对传输协议的了解(TCP/UDP区别)

这些协议在哪一层(Transport Layer)这一层有什么作用

TCP三次握手 具体的syn和ack是什么 为什么要三次握手

还有学了啥(答:TCP Timer 列举了四种)解释一下RTT(Round Trip Time, 与计时器无关,只是一个来回所需要的时间)

英文讲讲在学习/实习等中遇到的困难 怎么解决的

case:一个美国的客户等了很久没有解决问题,但是美国的人手紧缺,没空解答,中国的你上班了接到这个问题,怎么解决

二面:

对职位的了解

知道OSI七层网络模型吗

看你学过c++,那继承有什么作用

在c++和python中,if条件判断有什么区别

讲一下TCP三次握手

对云计算平台的了解

case:用户outlook客户端使用不了 进行一个实时模拟(问问题,给出解决方案)

英文讲讲 the impact of covid-19 to the world


4.28 manager面 30min

英文自我介绍

为什么从交大去复旦

交大的同学都很优秀 为什么你的本科成绩排名这么靠前

你有什么优势在这个岗位

为什么学日语

花了多久学习link里的资料

tcp三次握手的原因

了解加密吗

一周时间怎么安排来新学习产品,帮助客户解决产品问题



亚马逊-解决方案架构师(SA, Solution Architect)

3.26 网申(邮件形式)

4.20 一面 40min

一直在聊天?

。。。


4.27 二面*1 60min

地铁网络项目 个人负责部分 遇到的问题 怎么解决的

图像修复项目 个人负责部分 遇到的问题 怎么解决的;case给一个有墨迹缺失的字帖,怎么修复

垃圾邮件识别项目 改进的点

公司产品经理 体验 收获 遇到的问题

team中大多数人和你的观点不一致 怎么办


4.29 二面*2 50min

知识面特别特别广。。有很多没听过的专业名词,问懵了。。好多记不清w

对aws云计算平台的了解

http/https协议 404 200 等等数字是什么意思

堆相关

怎么去除list中的重复值

了解哪些排序算法(答了冒泡、快排、归并)对于什么样的数据 分别用哪个排序算法

数据库的了解 你学过的语法有什么 left join/ right join的区别 怎么去重 怎么统计每个城市的人数

怎么做数据的清洗

python数据读入怎么读的 header之类 二进制文件

json文件怎么转为字典

numpy里怎么把数组转为矩阵 怎么进行矩阵转置 对矩阵排序时怎么样又有原来的矩阵又有更新排序的矩阵

讲一个项目(地铁路网) 有什么应用价值和优势 小组分工 数据的获取是否和数据库等有关 如果手动改动站点换作代码怎么写

微服务听说过吗

熟悉Linux操作吗

参数传递方式

网络的搭建、构架思路



陶氏化学-IS信息技术部

4.21 网申(邮件形式)

4.22 一面 20min

英文:

自我介绍

对编程语言的熟练程度(level)

喜欢团队工作还是个人工作

团队成员意见不一致怎么办 个人效率更高不是吗


4.23 二面 30min 2v1

英文:

自我介绍

Machine Learning的例子 项目个人责任

Social network analysis中Innovation的例子 哪些是个人责任

Python中遇到的问题 怎么解决 具体如character error, logistic error, etc.


4.28 Leader面 35min

英文自我介绍

项目中遇到的困难 怎么解决

teamwork中有没有矛盾 怎么解决

自我评价 优点 缺点

喜欢写代码吗

你去日本招聘会我很感兴趣 讲讲

学生会中的角色

喜欢和人打交道吗



招行卡中心-数据分析业务策略

3.14 网申

3.18 在线测评

4.09 AI面试

4.21 一面 35min 2v1

地铁项目 介绍 应用 创新

社交网络项目 算法 数据获取方式 有没有交叉验证 AUC值多少

有没有实验室的项目

对工作内容的理解 自己想象的是什么样

数据清洗的使用工具

有没有看过这些包的源代码

制定的高的目标

比较有挑战/压力的事

有没有男朋友

为什么去这个公司实习


更多模拟面试

全部评论

(22) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐