一面
- 主要考察的是SQL的撰写,特别是HAVING,GROUP BY等的考察(四题)
- 第一个在数组中有重复数字的位置 O(n)
二面
一、Spark部分
Shuffle详细 Shuffle Read Shuffle Write 溢写
有10个Map Task,2个Reduce Task,2 个Executer,每个Executer有两个2 Core
- 问Hash Shuffle 产生的文件个数 10 (Map Task) * 2 (Reduce Task)
- 问优化过的Hash Shuffle产生的文件个数 (2 (Executer) * 2 (Core)) * 2 (Reduce Task)
- 问SortShuffle产生的文件个数 2 (Executer) * (1 (合并的文件) + 1 (索引))
数据倾斜问题
二、项目介绍
项目目标及难点
三、计算机基础及通信网络
- 数据通信7层/5层
- 进程之间的通信
- 进程相关问题,进程开销问题
- 进程和线程问题
- 内存方面问题
四、算法
SQL算曝光率
全部评论
(6) 回帖