首页 > 整理最近面的大数据开发题目(字节,阿里,腾讯)
头像
ebay-大数据部门负责人
编辑于 2021-04-18 09:19
+ 关注

整理最近面的大数据开发题目(字节,阿里,腾讯)

均已拿offer



字节:32*15 有期权

1.spark调优,spark数据倾斜体在项目中,具体在哪些场景出现了?
2.订单服务,仓储服务以及其他业务模块之前是怎么进行关联的?是通过消息队列异步的吗?
3.sql中row_number和rank的区别?
4.订单模块中,你主要做了哪些工作?
5.订单的整个流转过程?
6.rabbitmq怎么保证消息不丢失?
7.rabbitmq怎么避免重复消费?
8.rabbitmq中怎么去通过消息日志判断消息被消费了,简单说下过程。
9.你觉得你工作中有哪些方面能做的更好?


1、数据仓库和数据中台区别
2、数据仓库中有哪几类数据建模
网上解答:范式建模法,维度建模法,实体建模法
其中:维度建模法,Kimball 最先提出这一概念。其最简单的描述就是,按照事实表,维表来构建数据仓库,数据集市
3、对于缓慢变化的数据,在数据仓库中是如何处理的
4、如何建立用户画像指标的,如何维护
5、如何实施数据清洗的?从哪些方面着手
6、如若提供出去的指标有问题,如何解决和定位




阿里:35*14 80W期权

自我介绍
描述你的这个大数据的项目的业务
整体的数据链路是怎样的
整体的流程是怎样的,从数据进来到数据处理完的整体节点
你们的规模是怎样的
你在项目中主要负责什么
你在项目中担任什么样的角色
你学习大数据多久了
你怎样理解数仓,你们现在进行到哪一步
你了解的大数据组件有哪些
HDFS写流程
介绍下Kafka
HDFS 中向 DataNode 写入数据失败了怎么办
目前有没有实时计算或者离线计算的需求
hadoop2.x HDFS快照
Hive外部表和内部表
大数据学习方式,实践占比
Flume  source的种类
有跟市面上其他产品对比过嘛
为什么采用Flume
channel的种类

公司采用的Mysql的是什么架构   --mgr组策略    主从   集群
数据同步会产生什么问题,如何解决
mysql的调优
如何发现慢查询以及如何解决慢查询的问题
最左原则
全文索引
间隙锁

volatile 原理
synchronized 原理
synchronized jDk1.6以后做的优化
synchronized的锁升级
ConcurrentHashMap的线程安全--源码
ThreadLocal原理
扩容机制
hashMap的扩容机制



腾讯:

## 一面
- 自我介绍
- 在工作中负责的内容
- 数仓分层
- Spark 任务遇见过哪些问题?怎么解决的
- 维表和事实表
- 事实表有哪些种类
- 项目组有哪些人,什么指责
- 有多少张表,是怎么管理的
- sql题
- join 时 on 和 where 语法
- 用户连续打卡天数

## 二面
- 自我介绍
- 在工作中负责的内容
- 数仓分层
- 主题是怎么划分的,从那一层开始,为什么
- 维表和事实表
- 事实表有哪些种类
- 数据质量是怎么保证的,有哪些方法保证
- 怎么衡量数仓的数据质量,有哪些指标
- 离线任务遇见过哪些问题,怎么处理的,如数据迟到、数据重复
- 怎么保证数据的一致性

更多模拟面试

全部评论

(12) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐