本来投递的是腾讯视频下的数分,估计简历没过,被扔到池子里了。后来找了认识的在FIT工作的学姐内推,才被FIT的数据部门捞起来了。
FIT Timeline: 3/27提交简历,4/4笔试,4/20一面,4/28二面,5/7 总监面,当天晚上通知没通过面试,流程结束。
初试 (30min)
- 自我介绍
- Behavioral questions
1. 你觉得以前学的统计、概率的课程,和数据挖掘、机器学习的课程有什么区别
i) 前者是后者的基础,后者的模型算法推导会用到前者的知识基础
ii)前者学的时候更偏理论,后者更注重实用性,能否解决现实中的问题
2. 未来的职业规划
3. 有什么想做的垂直领域
答了FIT,本科专业也是读金融的,能和数据的交叉领域
4. 研究生毕业后想回国工作vs留在香港
回国,科技行业发展前景
- Resume-based questions
1. 电商销量预测模型
- 数据源有哪些
- 对商品的时间序列特征进行聚类,用的哪些时间序列特征,聚类后各类商品的特点
- 公司的数据结构
这个部门感觉有点偏数据治理和数仓,很注重对数据源的理解,数据是怎么来的。
- 模型用了什么输入特征
2. 交叉销售系统
- 数量级有多少
- 模型如何落地
- 问了目前公司的数据结构,我们用的数据是哪些部门feed过来的
- Q&A
- 问了部门工作内容
主要做用户画像,优化某类人群的转化率。从各个业务线获取数据,不同的使用场景。
- 工作中技术和业务的比重
组里每个人不一样,有偏业务的,聚焦一点。有偏技术的,会做user的embedding。工具上会用Hadoop,Spark,还有腾讯内部自研的工具。
- 如何说服业务方配合,让分析结果落地
的确是困难的。因为业务方有自己过往积累的经验,且他们需要分析的时效性,不会给足够的时间去develop model。
因此要求数据中台更了解业务。要找准切入点,先从小的迭***始,之后再快速迭代,刺激业务方来向数据团队提需求。
- 对我面试的建议
i) 之前工作中做的推荐系统商品量级很小,只有几千,他们遇到的是百万级的。
ii) 对原始数据处理这块缺乏经验,更多是直接用开发团队处理好的规范的数据。(55我不是做数据研发的呀)
二面 (1h)
1. 自我介绍
2. 介绍一个数据分析的项目,整个数据处理的流程是怎么样的
- 怎么选择模型,考量有哪些
- 如果模型表现没有达到预期,你会怎么做
3. 问了简历里的用户流失率预警模型
- 怎么把模型训练时间缩短的
- 为什么用基于逻辑回归的多任务学习,和同时用多个逻辑回归有什么区别,预测值是什么
4. 介绍一个常用的机器学习算法
- XGBoost和LightGBM的差别,为什么不用LightGBM
5. 简历的项目里特征筛选用了随机森林
- 为什么用随机森林
- 有其他特征筛选的方法吗,和随机森林相比有什么优劣
6. 看你可实习的时长只有2个多月,你想在这份实习获得什么
7. 逻辑问题
有9个球,其中一个和其他的不同,有一个天平,问最多称几次能找出那个特殊的球
逻辑问题没有回答出来,分析思路有点混乱,想到了两个两个称,四个四个称,就是没有回答到点子上。面试官提示了挺多的,但还是没有回答出来。面试最后也说了我的思维逻辑能力有点欠缺。(但我面完过了几分钟自己就想出正确答案了。。。)
8. 有用过理财通吗,平时你买基金会考虑哪些方面
风险偏好,股票型基金还是债基,holdings的行业分布,基金过往历史表现,基金经理表现
9. 怎么分析用户什么时候会卖掉基金
股市、债市整体环境,基金个体表现(是否达到投资者个人的止盈点、止损点),投资者当前对流动性的需求
10. 怎么预测用户的止损点在哪里,你会考虑用什么模型预测
说的都被面试官反驳了,想到其他更好的特征维度欢迎在评论区回复!
- 用户在买入基金后自己设置和调整的止损点,以及用户调整该阈值的时间、频率和行为
- 看用户什么时候特别活跃、频繁登录查看基金信息。但面试官说他们试过这种方法,但用户心理截然相反,在基金下跌的时候不会登陆查看,等上涨的时候立刻登录就卖了。他们想在卖之前做提前预警
- 还提到能否看用户曾经购买其他基金的历史数据,用过去的交易记录来预测当前基金的可能的止损点。但面试官说用户的风险承受能力随着时间可能发生变化。
11. 反问
- FIT下分为资产组和数据组,面的是数据组。
- 继续是用户画像组,但感觉这个面试官更偏技术,会用很多数据挖掘的方法去做用户标签,之后再和业务方沟通看如何使用这些用户标签和落地。
总监面 (40min,T14级别,面试时感觉就有点凉凉,氛围很奇怪,感觉没聊起来,面完当晚就显示流程中止了)
1. 自我介绍
2. 问了毕业时间,可以实习时长。觉得2个半月有点太短了(没办法这个客观因素,我就算立刻回去也要隔离21天呐)
3. 简历每个项目逐一过
- 搭建可视化报表,看不同等级的会员对各产品类别的喜好程度
遇到什么困难,怎么解决。怎么定义用户黏性。有多少个产品品类。会按照新客、老客的维度去拆分吗。
- 邮件点击率预估
点击行为的数据来源,是否有延时性。数据这么不均衡如何处理。有多少不同类别的营销邮件,都放在一起做词向量编码吗,那word2vec的模型多久重新训练一次。点击率提升了多少,怎么落地。
- 特征筛选
Random forest,XGBoost,LightGBM有什么区别
- AUC的物理意义是什么(还特意强调物理意义。。)
这个真的我从几个角度回答了,面试官对我的答案都不满意。。
- 交叉销售推荐系统
就听我介绍就没了,也没追问
- 用户流失率预测
为什么要用基于逻辑回归的多任务学习模型。没想到会问算法问的这么深,对模型结构、y变量如何构造的、多任务学习的概念都问到了,这块准备的不够充分,没能短时间说明白解释清楚,面试官脸色很不好。。。
4. 反问的时候就觉得没戏了,就问了关于监管的问题,面试官也好像不太想聊下去,一句话就说完了。。
腾讯WXG小程序团队数分,FIT的流程挂了之后,被重新内推到WXG的数分岗位了。5/11 一面,5/12二面,5/17 总监面,5/21 HR面。本来也过了,填写了云证信息,但因为毕业后有一份全职工作,签了劳动合同,HR说不能来实习,最后因为身份问题没有发offer。哎。。。
初试(1h,微信小程序中心,地点在广研院)
1. 自我介绍
2. 什么是数据倾斜,怎么解决
3. 笔试:2题SQL优化 + 1题python + 1题SQL
- 数据倾斜:大表 join 小表,count(distinct user_id)
- 用python实现quick sort
这里没做出来,我真的对排序算法一无所知...
- 记录每个公众号每个用户平均阅读时间间隔
这里一开始只想到用lead 窗口函数,后来面试官提示有技巧,不需要这么复杂。可以用阅读的时间跨度 / 阅读次数
4. 简历项目深挖 + 衍生的机器学习问题
- 介绍了点击率预估项目
- 模型上线的表现
- 为什么用DeepFM,不用其他更简单的模型
- DeepFM结构,什么特征适合FM,什么特征适合DNN
- FM和LR区别
- XGBoost和GBDT区别
- 特征筛选除了随机森林,还有什么其他模型
- 项目里的模型,哪些特征重要度更高
5. 反问
复试(1h,leader面)
1. 自我介绍
2. 业余兴趣
3. 职业规划
4. 工作地点选择
5. 会什么技术,怎么学习的
6. 对大数据的理解,大数据有什么挑战
7. 举一个项目中用spark处理数据的例子,遇到什么困难,怎么解决,结果如何
8. 了解数据的来源,如何做数据分析,到产出结论的整个过程吗
9. 怎么判断用数据做的分析结论是否客观公正的,比如说网页点击人数的数据
- 提到数据质量,可能有异常数据,比如机器等程序的点击行为。面试官说这是数据异常多的体现,怎么发现数据缺失/异常少呢
10. 针对上一问,如果某个数据,比如日活,平时都是稳定的,突然下跌,怎么分析
- 指标异动分析
面试官说不是指标口径的问题,如果是已知某功能发生改版,如何定位具体原因。
- 找出用户路径,根据漏斗分析,定位出现异常的环节,是否改版前后埋点体系的代码有问题,或者是改版前后的功能导致的用户体验变化
面试官具体说是改版前后的按钮发生变化
- 从产品设计层面,按钮的位置、大小、文字信息、颜色,都可能影响用户的点击和转化,进而影响日活。(如果日活的指标口径是需要点击该按钮进入登陆页面)
11. 笔试,概率题+python代码实现
一个硬币,正面概率0.7,反面概率0.3。
- 设计一种方法,让该硬币能够公平地决出胜负。
- 问平均要抛几次才能决出胜负。
- 用python模拟实现。
总监面 (1h)
做了半个小时在线编程题,但都用的暴力解法。。。
1. 股票买卖的最佳时机。
2. 一个整数矩阵,每行每列都是升序,判断一个给定的整数是否在这个矩阵里
3. 贝叶斯概率
简单地问了简历项目,是否会HiveSQL和Spark。
HR 面(30min)
1. 自我介绍
2. 投行工作和在电信公司工作有什么不同
3. 对互联网公司数据分析工作的理解
4. 介绍一个工作中的项目
5. 遇到的困难怎么解决
6. 有没有跨团队沟通的经历,和团队、业务方有分歧怎么解决
7. 觉得自己在前三轮面试表现怎么样,对面试官有什么看法
8. 有在面其他公司吗,觉得腾讯和其他公司的面试对比有什么不同
9. 对面试的组和工作有了解吗
10. 可实习的时长
11. 反问
12. 介绍了后续的流程
当天收到云证。
全部评论
(3) 回帖