先上个图,感叹字节跳动效率。面试时长30分钟
自我情况介绍,三流985渣硕(本硕),有一次数据分析实习(京东数科),一次小比赛经历。Hive一般,Python调包侠。
一面流程:
1. 自我介绍,hive熟悉,Python了解(没啥用)
2. 问题一:根据实习介绍:对内的数据支持(写SQL)没有接触业务,所以问了一个次日留存率计算问题,
已知表user_table,字段device_id(设备ID,代表用户),event_time(时间)
/*计算某日新增登录设备的次日留存率*/ SELECT log_day '日期', count(user_id_d0) '新增数量', count(user_id_d1) '留存数量', count(user_id_d1) / count(user_id_d0) '次日留存', FROM ( SELECT DISTINCT log_day, a.user_id_d0, b.device_id AS user_id_d1, FROM ( SELECT DISTINCT Date(event_time) AS log_day, device_id AS user_id_d0 FROM user_table GROUP BY device_id ORDER BY log_day ) a LEFT JOIN user_table b ON DATEDIFF(DATE(b.event_time),a.log_day) = 1 AND a.user_id_d0 = b.device_id ) AS temp GROUP BY log_day3.统计学基础,相关性分析用了检验?检验的作用?时间序列分析用了什么方法?
卡方检验,衡量两个样本分布是否一致(不确定,百度:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度)tips:统计专业同学多看基础知识,前面紧接着问的时间序列分析没回答(用的ARIMA)
4.业务问题,如何分析抖音直播流水(收入)下降?直播分析的维度有什么?这个看的人人都是产品经理和百度,但是没接触过很迷茫,求好心人分享一下?
数据分析必看辛普森悖论,第四问回答参考资料https://zhuanlan.zhihu.com/p/86412402。
总结:老老实实刷代码题(Python算法),安安心心看机器学习基础,祝所有同学早日上岸,给自己加油。跟二面的同学交流了一下,感觉都是业务问题。
全部评论
(1)