一面:
先问了项目
1. hadoop的读写流程,副本机制,为什么三副本,三副本怎么放(副本放置策略)
2. hdfs容错机制(secondarynamenode)
3. spark容错机制
4. spark的stage是怎么划分的
5. spark的部署、调度原理(master、worker这些)
6. 数据倾斜怎么处理
7. 实时处理的了解吗(我说flink),反压了解吗。
8. 两个窗口一个数据正常均匀,一个数据不平衡(比如前面数据特别多后面特别少),怎么处理(意思应该是有可能时间划分出错,调整一下窗口的起始位置和结束位置)
9. 算法题,链表判断是否有环、二叉树的深度
10. mysql索引什么时候无作用,或者说什么情况不适合建索引
11. 反问
二面:
问了项目还有工作经历(虽然不相关),不断往下问,主要看思路,可能考察工作实习有没有多思考
1. SQL题,两个表,表order是city,amount,表location是city, province,得出省份总交易额在[0,600],[400,1100],[1000,+infinite] 这三个区间的省份的数量
2. 算法题,字符串'AxxxxxBxxxxCxxxDxxx'(相当于log),A后面的信息是对应A这个key的value,B后面对应B的以此类推,将字符串它转成可读的信息
3. 上述题目,除了这种字符串保存的log,还能想出怎样的保存方式(有了解过json、正则?)
4. 为什么用字符串不用json,优点是什么
5. 反问
全部评论
(11) 回帖