1、简述scala和java的主要区别,使用过程中。scala的版本。
2、scala的根缀表达式。
3、接口和特质的区别
4、大数据的排序、去重的算法。(快排在大数据是不适用的)bitmap、布隆过滤平时可了解过。
5、遇到过jar包冲突的情况吗?
6、yarn资源申请过程。资源响应、资源分配是怎么进行的。
7、容器是什么。什么东西调用这个机器的资源?container是以什么形式存在于内存当中。(本质上也是一种线程)。
8、yarn的源码看过吗?有从某个入口进去,把yarn资源调度的过程自己捋一遍。
9、hdfs的读写路径。
10、具体通过什么途径进行通信。rpc
11、文件读取的时候怎么确定当前的block在哪个datanode上,读数据使用什么算法确定最优的那个datanode。
12、文件写入过程中namenode发现文件以及存在或者创建者没有权限操作,会返回什么错误。
13、hive用过吗?hive的组件及各个组件的作用。优化器有哪些优化的措施。
14、hive和hdfs交互流程。操作数据时和hdfs怎么操作数据的。
15、hivesql写过吗,数据倾斜遇到过吗,怎么处理的?
16、手写sql,学生分数按序排名,输出每个学生前百分之三十的学生分数的平均数。
17、azkaban,别的任务调度oozie学过吗?现在azkaban用的比较少。
18、举下spark的transform和action的算子,并讲下区别。
19、spark的rdd原理。spark怎么把你的算子转化成rdd的?rdd之间的一些关系。rdd怎么提交到内存上计算的。
20、数仓为什么要分成这几层。原始数据是什么格式的?底层数据处理到dw层是怎么处理的?spark还是什么?如果原始数据是半结构化的数据/非结构化的数据怎么办?
21、维度表和事实表怎么区分。维度是手机号或者地址,会经常变更的维度,这种怎么处理?(渐变维度?)加个版本号是吧。
22、数据建模过程中,数据导入、数据处理、数据展示都使用哪些工具?flume和sqoop有什么区别?
二面:
1、简述hadoop
2、写文件流程
3、pipeline
4、spark本身的批处理用过吗?
5、scala的样例类和伴生对象
感觉二面是为了刷kpi,因为1面很差,被面试官直接说基础很差。。。
全部评论
(8) 回帖