Spark
- 内存管理
- 数据落盘
- shuffle
- 能产生shuffle的算子
- 数据倾斜
堆和栈
- 相关属性
- 更新节点时间复杂度
MySql索引
- 索引存储结构
- mysql底层索引实际数据结构
进程线程通信
- 线程通信方式
- 进程通信方式
实际内存与虚拟内存
代码题
- 计算抖音用户在线峰值(分钟级)
//日志文件结构,timstampe表示时间戳,uid表示用户Id,logtype表示用户上线和下线状态(1表示上线,-1表示下线1) (timstampe:String uid:Int logtype:Int) //用户在线:从用户上线到用户下线这一时间段都算用户在线
二面
看过spark底层源码没有
流式框架
- 节点挂了,怎么保证任务正常执行
- 有状态怎么维护之前的状态
- checkpoint数据重用前提
并行度
- 怎样提高并行度
- 相关参数
背压机制
应用场景
底层实现
join的有几种实现
boardcast hash
shuffle hash
sorted merge
Mysql
- 隔离界别
- 读提交会造成哪些数据不一致问题
- mysql默认那种隔离级别
Hbase写入方式
- bulkload
- 不同写入方式的应用场景
synchronize底层实现
锁升级
与lock区别
公平?
用spark遇到了哪些问题
代码题:
- 给一个链表 奇数位是递增的 偶数位是递减的 重新排序该链表,使链表从小到大排序
- 思路:双指针得两条链表,反转偶数位得到的链表,两条链表重排序
昨天面的一二面,今天通知过了,约明天电话三面
全部评论
(2) 回帖