科大讯飞大数据工程师面经凉经

一面：
1、简述scala和java的主要区别，使用过程中。scala的版本。
2、scala的根缀表达式。
3、接口和特质的区别
4、大数据的排序、去重的算法。（快排在大数据是不适用的）bitmap、布隆过滤平时可了解过。
5、遇到过jar包冲突的情况吗？
6、yarn资源申请过程。资源响应、资源分配是怎么进行的。
7、容器是什么。什么东西调用这个机器的资源？container是以什么形式存在于内存当中。（本质上也是一种线程）。
8、yarn的源码看过吗？有从某个入口进去，把yarn资源调度的过程自己捋一遍。
9、hdfs的读写路径。
10、具体通过什么途径进行通信。rpc
11、文件读取的时候怎么确定当前的block在哪个datanode上，读数据使用什么算法确定最优的那个datanode。
12、文件写入过程中namenode发现文件以及存在或者创建者没有权限操作，会返回什么错误。
13、hive用过吗？hive的组件及各个组件的作用。优化器有哪些优化的措施。
14、hive和hdfs交互流程。操作数据时和hdfs怎么操作数据的。
15、hivesql写过吗，数据倾斜遇到过吗，怎么处理的？
16、手写sql，学生分数按序排名，输出每个学生前百分之三十的学生分数的平均数。
17、azkaban，别的任务调度oozie学过吗？现在azkaban用的比较少。
18、举下spark的transform和action的算子，并讲下区别。
19、spark的rdd原理。spark怎么把你的算子转化成rdd的？rdd之间的一些关系。rdd怎么提交到内存上计算的。
20、数仓为什么要分成这几层。原始数据是什么格式的？底层数据处理到dw层是怎么处理的？spark还是什么？如果原始数据是半结构化的数据/非结构化的数据怎么办？
21、维度表和事实表怎么区分。维度是手机号或者地址，会经常变更的维度，这种怎么处理？（渐变维度？）加个版本号是吧。
22、数据建模过程中，数据导入、数据处理、数据展示都使用哪些工具？flume和sqoop有什么区别？

二面：
1、简述hadoop
2、写文件流程
3、pipeline
4、spark本身的批处理用过吗？

5、scala的样例类和伴生对象

感觉二面是为了刷kpi，因为1面很差，被面试官直接说基础很差。。。

已采纳

采纳

精彩回帖

精彩

全部评论

(8) 回帖

加载中...

话题同步到我的动态回帖

科大讯飞大数据工程师面经凉经

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

近期精华帖

热门推荐

科大讯飞大数据工程师面经凉经

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐