一面:
根据项目问了架构,涉及到的技术
spark streaming Vs flink
watermark是干什么的,如何使用
数据倾斜如何处理
编程原则Solid
Spark reducebykey和groupbykey的区别
mysql 索引相关,B+树,聚簇索引等,回表
Kafka 原理 高可用
算法:中文数字专阿拉伯数字
二面:
项目:重点讲一个,其中的架构,技术等
spark streaming vs structured steaminng vs flink 差别,flink checkpoint,barrier等,扩展到谷歌millwhile, dataflow等模型
Kafka 高可用如何保证,幂等性如何保证exactly-once。为什么性能好
其他的记不清了,多是大数据相关
算法:数组中 乘积最大的三个数,有负数,零的情况。排序后处理,复杂度分析
三面:(痛苦来了)
聊了很多现在公司业务问题
场景:三个节点日志,每个节点两千万,有时间和IP等信息,如何设计系统查询一个时间 范围内top10的IP,要求快速响应
想的是:通过flink或flume刷到mysql,然后groupby count。但是面试官问的特别详细,比如,flink如何读数据,什么原理……,怎么写入mysql,怎么存,一天6kw,10天6亿数据,分库分表?,怎么连接mysql……groupby怎么做,count怎么做……
问的相当崩溃,最后如何及时响应用户请求,通过sql groupby 过后rollup,卷数据。触及知识盲区了。
最后问了一些项目和管理中的问题,个人优势啥的
四面:
离职愿意,个人规划,薪资等
offer已拿, 还愿
感谢牛客
全部评论
(13) 回帖