时间线
7.21(简历)->8.6(一面) ->8.11(二面)-> 8.13(意向书)
一面(33min)
- 自我介绍
- 数仓与关系数据库区别?
- 数仓为什么需要分层?优缺点?
- 怎么定位任务需要优化?
- 如何优化任务?
- Hive表数据底层存储在哪?
- 元数据存储在哪?
- Hive与HDFS之间的关系?
- Hive sort by 和order by 的区别?
- over() 说下?
- Hive执行过程?
- 数仓链路很长怎么保证任务有序执行?
- 表之间依赖是怎么触发的?(时间触发、版本触发)
- 哔哩哔哩up主投稿,对于看稿件这一行为怎么去建模?
- 维度建模的方法?优缺点?
二面(27min)
数仓的作用?除了信息集成,分析决策?
Join有几种运行机制?
MR流程?
数据倾斜一般有哪些情况?怎么解决?
Map端倾斜原因是?怎么解决?
事实表、维度表怎么建立?
建模过程中逻辑模型和物理模型的区别?
combiner的作用?
join的执行计划?
SQL:订单表,金额累积求和
为什么想到上海来发展?
最近在看什么书?
反问
总结
- 整体偏向于大数据框架原理和数仓概念,计算机基础考察不多。内容都基于简历。
- 一面体验不错,还问了B站等级。
- 二面压力面,会反问:确定吗?还有吗?一度以为凉凉。
全部评论
(20) 回帖