ebay-大数据部门负责人

编辑于 2021-04-18 09:19

+ 关注

整理最近面的大数据开发题目(字节，阿里，腾讯)

均已拿offer

字节：32*15 有期权

1.spark调优，spark数据倾斜体在项目中，具体在哪些场景出现了？

2.订单服务，仓储服务以及其他业务模块之前是怎么进行关联的？是通过消息队列异步的吗？

3.sql中row_number和rank的区别？

4.订单模块中，你主要做了哪些工作？

5.订单的整个流转过程？

6.rabbitmq怎么保证消息不丢失？

7.rabbitmq怎么避免重复消费？

8.rabbitmq中怎么去通过消息日志判断消息被消费了，简单说下过程。

9.你觉得你工作中有哪些方面能做的更好？

1、数据仓库和数据中台区别

2、数据仓库中有哪几类数据建模

网上解答：范式建模法，维度建模法，实体建模法

其中：维度建模法，Kimball 最先提出这一概念。其最简单的描述就是，按照事实表，维表来构建数据仓库，数据集市

3、对于缓慢变化的数据，在数据仓库中是如何处理的

4、如何建立用户画像指标的，如何维护

5、如何实施数据清洗的？从哪些方面着手

6、如若提供出去的指标有问题，如何解决和定位

阿里：35*14 80W期权

自我介绍

描述你的这个大数据的项目的业务

整体的数据链路是怎样的

整体的流程是怎样的，从数据进来到数据处理完的整体节点

你们的规模是怎样的

你在项目中主要负责什么

你在项目中担任什么样的角色

你学习大数据多久了

你怎样理解数仓，你们现在进行到哪一步

你了解的大数据组件有哪些

HDFS写流程

介绍下Kafka

HDFS 中向 DataNode 写入数据失败了怎么办

目前有没有实时计算或者离线计算的需求

hadoop2.x HDFS快照

Hive外部表和内部表

大数据学习方式，实践占比

Flume source的种类

有跟市面上其他产品对比过嘛

为什么采用Flume

channel的种类

公司采用的Mysql的是什么架构 --mgr组策略主从集群

数据同步会产生什么问题，如何解决

mysql的调优

如何发现慢查询以及如何解决慢查询的问题

最左原则

全文索引

间隙锁

volatile 原理

synchronized 原理

synchronized jDk1.6以后做的优化

synchronized的锁升级

ConcurrentHashMap的线程安全--源码

ThreadLocal原理

扩容机制

hashMap的扩容机制

腾讯：

## 一面

- 自我介绍

- 在工作中负责的内容

- 数仓分层

- Spark 任务遇见过哪些问题？怎么解决的

- 维表和事实表

- 事实表有哪些种类

- 项目组有哪些人，什么指责

- 有多少张表，是怎么管理的

- sql题

- join 时 on 和 where 语法

- 用户连续打卡天数

## 二面

- 自我介绍

- 在工作中负责的内容

- 数仓分层

- 主题是怎么划分的，从那一层开始，为什么

- 维表和事实表

- 事实表有哪些种类

- 数据质量是怎么保证的，有哪些方法保证

- 怎么衡量数仓的数据质量，有哪些指标

- 离线任务遇见过哪些问题，怎么处理的，如数据迟到、数据重复

- 怎么保证数据的一致性

已采纳

采纳

精彩回帖

精彩

全部评论

(12) 回帖

加载中...

话题同步到我的动态回帖

整理最近面的大数据开发题目(字节，阿里，腾讯)

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

热门推荐

整理最近面的大数据开发题目(字节，阿里，腾讯)

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

热门推荐