1.根据文件内容查找文件
2.查看内存
3.关闭正在执行的MR任务用什么命令
4.scala样例类和普通类的区别
5.使用过cube函数吗
6.内部表和外部表的区别
7.谈谈你了解的Hive优化
8.Hive里面添加排名列的三种方式和区别
9.用过UDF吗
10.用过SparkSQL的UDF吗
11.讲一下广播变量
12.什么是宽窄依赖,如何划分,什么情况下的join为窄依赖
13.SparkSQL读写Hive表
14.Spark优化了解过哪些,举例说明
15.讲一下Spark任务提交流程
16.Spark应用程序包括Job、Stage以及Task三个概念,如何划分
17.DataSet和DataFrame的区别
18.SparkSQL如何使用UDF
19.1.6以前的SparkContext和现在SparkSession的区别?(这个记不太清了)
20.问了两个程序的输出结果
21.transformation算子和action算子的区别
22.用过哪些action算子
23.foreach和foreachPartition的区别
24.maptask和reducetask的数量取决于什么
就能想起来这么多了,面试官还是非常nice的,答得有问题的地方也会进行指引。
许个二面吧,如果可以,顺便续个hc
全部评论
(6) 回帖