一面 1h
1. 自我介绍
2. 围绕项目:数据接入表的介绍
3. MySQL索引分类
4. 索引如何添加的,为什么要添加索引,哪些不需要添加索引,有些情况为什么索引会很慢
5. 实习公司自研调度平台介绍
6. 数据流介绍,数据写入的过程
7. 异构数据源融合是怎么做的,碰到了什么问题,如何解决的
8. 数仓分层
9. 数仓建模方式:范式建模,维度建模
10. Hive表的存储格式,为什么要这么存,不用别的存储
11. 数据倾斜
12. Mapjoin原理,介绍一下
13. 主题表是如何制作的,处于数仓的哪一层,你这个项目的数仓是如何分层的
14. 写sql,自联结的,还算简单。没有手撕
二面 1h 10min
1. 自我介绍
2. 范式建模,说一下数据库范式,分别举个例子
3. 范式建模用的多还是维度建模用的多
4. MR应该了解吧,详细说说;说完之后,spark和他有什么区别
5. 说说shuffle的过程,哪些算子,我又说了说对不同算子的优化
6. 索引机制,用到了哪些引擎,区别是什么
7. 事务和锁
8. 平时用的最多的开发语言是什么,我说是Java,然后面试官不说话了,我就自己说了说HashMap 1.7和1.8的区别。。。说的一半被打断了,问我用Java写过什么?我说hive里的udf写过一些,然后开始了udf的介绍
9. Udf分为哪几种,每种类型是干什么的,如何使用
10. 那你用Java写个快排把。
11. 写完partition被打断了,又写了一个sql,很简单,但是当时脑子有点短路,引导了一下,说了思想,面试官要去吃饭了,就没让写了
12. 反问环节。。。终于给反问的机会了
二面的面试官比较严肃,答完之后,反馈也很少。反问的时候,说我答的不够深刻,让我多去看看Hadoop源码,然后又说我答的还可以~
全部评论
(11) 回帖