美团 - 基础研发平台
一面
1. 自我介绍;
2. 项目介绍, 围绕项目考察了很多数仓方面知识
数据接入采用的方式, 有哪些数据接入方式; 有非结构化数据的加载嘛? 每天的数据量有多大;
增量数据的拉入技术环节是怎样, 对业务的影响, 增量数据的判断, 历史数据的存储;
维度数据是怎么处理? 明细层的设计模型, 采用了什么方法建模, 怎么搭建主题域的? 事实表和维度表是怎么去拆分的, 依据是什么?
事实表和业务系统是怎么映射的;
事实表分类有哪些? 事实表分类方式? (交易事实表, 周期快照事实表, 累积快照事实表)
事务事实表创建过程中核心要注意什么? 存储方式, 事实事实表建模逻辑是怎样? (事实设计准则: 事实完整性, 事实一致性, 事实可加性)
创建事务表的过程中, 逻辑是什么, 分为哪几步, 大概设计方法; (维度建模四步骤: 1. 选择业务过程; 2. 声明粒度; 3. 确认维度; 4. 确认事实;)
对于维度的退化, 怎么去确认哪些维度应该退到事实表, 哪些不退化;
3. 数据质量, 数据治理模块
元数据在整个数仓生命周期中的作用? 元数据做应用可以做哪些应用?
数据质量监控, 针对任务做了监控嘛? 对数据内容做了哪些方面的监控?
对指标和维度有监控, 那怎么保证整个数仓中指标统一?
4. 技术
spark和hive的区别
hive转MR有哪些步骤?
数据倾斜场景, 如果是大表join大表, 并且热点key也比较集中? 如果不用拆分的方式, 对热点key有哪些处理方式?
spark任务的调优, 有哪些核心的参数调优? 提升任务的并行度, 可以通过哪些参数? (spark调优问的很细)
如果spark任务遇到OOM, 大概的排查逻辑是什么, 会检查哪些地方产生OOM, 会调整哪些参数? 如果是driver的OOM, 大概会调整哪些, 从参数来调整?
hive的窗口函数, RowNumber和rank区别
hive的存储类型
5. 综合方面
在项目开发中如何管理项目, 有哪些时间管理或者管理手段?
平时除了数据开发喜欢了解哪一块的知识?
二面
1. 自我介绍
2. 挑一个项目介绍(主要考查对项目的表述, 归纳总结能力, 还有处理问题的能力)
3. 项目中遇到的难点和优化点
4. 职业规划
二面跟想的完全不一样, 以为也是考察技术块, 结果主要是考察项目架构, 以及一些场景, 主要看思考方式, 处理问题能力, 表达能力
没想到会问这些, 回答的不是很好, 整体感觉不好, 估计凉了
全部评论
(2) 回帖