从来没有准备过数据研发的面试,仅仅是工作中有接触过一些大数据处理的工具,是HR那边捞的简历联系的面试。面试下来感觉自己的技术栈有点不匹配,但面试官很好人,一直在引导。
Timeline:5/12一面,5/20二面,5/23三面,5/24 HR面,当天会通知结果。本来通过了,但HR说我可实习时长不足4个月,最后没发offer。
一面 (5/12, 1h)
1. 自我介绍
2. SQL里select语句执行的顺序
3. 介绍SQL里的不同join
4. HiveSQL orderBy和sortBy的区别
5. 会用linux吗,常用的linux cmd有哪些,追问除了sh还有哪些运行shell脚本的方法
6. Hive和传统数据库的区别有哪些,为什么Hive修改小量数据会影响很多行数据
7. 现场笔试,算法题真的是我的短板。。
- 一题SQL,某天观看视频数最多的前五名用户及其看的unique视频数
这里开始写的时候用了count(distinct)和group by,被面试官提醒之后才改为用了两次group by做出来。有被问到count(1)的含义。
- 单链表折叠
不会。。。
- 回型打印二维数组
说出了正确思路,但代码没写出来。。。参见leetcode螺旋矩阵题解
过了1天很快通知进入二面,约了5/20二面。
二面 (5/20, 1h)
1. 自我介绍
2. 介绍最近做的点击率预估的项目
为什么用“Jieba"分词,了解它提取关键词的算法吗,有对比结巴分词和其他分词的包吗
3. 离线和在线数据的存储有什么区别
4. NoSQL和SQL的区别,适用场景分别是
5. MongoDB适合存流式数据吗(问了之前工作的公司:为什么数据既要存在hdfs上,还要存在MongoDB)
6. 了解MySQL的索引吗,HiveSQL为什么没有索引呢
7. 了解进程和线程吗
8. App里的log数据是怎么存储和分析的呢
9. 做题
两道SQL,行转列,log日志统计
蛇形合并多个列表
面完就通知了三面,约了5/23。
三面 (5/23, 40min)
1. 面试官介绍部门业务
给西瓜视频、头条做数据产品建设,偏内容的数据分析,对内产出策略,开发数据产品并落地。举了一个例子:为什么某些新闻的PV/UV高,给创作者提供insight。或者是帮助做拉新活动,将合适的创作者一步步引导成为达人。
2. 自我介绍
3. 简历项目深挖
- 电商销量预测
有考虑季节性因素吗,比如夏天等
- Yelp评论情感倾向性分析
为什么用LSTM,不用bert
4. 对工作城市的选择有什么倾向
5. 为什么去香港读大学
6. 去CMU交换的经历
7. 上一个公司用的平台,对大数据工具怎么学习的
8. Spark和HiveSQL的区别
9. 反问
HR面(5/24, 20min)
1. 自我介绍
2. 挑简历上的一个项目介绍
- 是否是独立完成的
- 和业务方对接的时候遇到什么困难,怎么解决
- 项目有哪里可以优化的点
3. 平时自己通过哪些途径学习
4. 最近有学习什么新的知识和技能吗
5. 为什么想来字节实习
6. 可实习的时长
7. 目前有哪些公司的offer,在什么地方,怎么考虑优先级
8. 对工作城市的选择
9. 给我介绍了一下通过之后后续的流程
全部评论
(6) 回帖