1、结合简历自我介绍
2、上来先来个MR流程
3、Spark和MR区别
4、Spark Shuffle和MR Shuffle对比
5、Spark Streaming的理解,和Spark Core的区别
6、场景题:Spark Streaming消费Kafka数据的时候,如果Spark集群挂了,
如何保证数据不丢不重
7、Spark运行时架构
8、Spark Job划分、任务调度细节
9、Spark Streaming和Flink的区别
10、问项目,数仓分层、建模模型
11、实际如何建模,结合项目介绍一下
12、SQL题(电话面说思路就行):统计每个省份访问量的前三名城市(用户访问量明细表,访问一次产生一条数据)。
这个对省和市做一个group by,组内做count,然后对省份开窗取前三就行
13、顺势问到了窗口函数,功能介绍
总结一下:京东很务实,不咋问Java和八股,问的都是实际会用到的技术栈,没做过项目很难对付过去,还是得多动手啊!
全部评论
(2) 回帖