ros1n

编辑于 2020-09-25 21:52

[持续更新]渣渣大数据社招面试之路

本人海外水本，在某三线中厂工作2年出头后准备跳槽，为了回报论坛和集思广益，特在此记录面试的问题。因为刚开始，后面会持续更新。

##阿里云城市大脑 1面凉凉
1.做个自我介绍
2.谈谈工作中的一个亮点，或者有较大贡献的地方
3.意向工作地点
4.从上家公司离职的原因
5.数据抽取是否有遇到过什么问题，如何解决的
6.说一下数据治理方面实践的例子
7.用过什么阿里的组件吗
8.如何解决数据倾斜，举个例子
9.Spark RDD有什么特性
10.Hive优化
11.Hive分桶和分区的区别
12.一个Hive表，数据量很大，分布在集群的100个节点，现在需要定期取top100，如何设计/实现？
13.描述一下你做过的ETL流程，如果中间有某个流程我感兴趣我会直接打断
14.直言我现在的实战经验进来有点困难，问：给我个理由，在你技术不足的情况下仍然让你进来

第12题不知道大家是怎么想的？感觉应该有个很直接的答案，但一直想不到，我能想到的是拿要排名的这个字段做hive索引，这样取会快些

1面（捞） + 阿里伯乐系统的笔试已跪

1.自我介绍

2.介绍一下你在公司的工作情况，包括觉得学的到的最有用的东西

3.我讲项目，问数据量有多少，问技术提升的效率

4.你们公司的数据中台是什么？能和我介绍一下吗

5.你们数据中台的使用方是哪些

6.你在数据中台建模的项目

7.主题域是什么，你们是怎么划分主题的

8.数据中台打通了什么数据，怎么打通

9.如果不同业务线有同一个用户使用不同手机号注册不同的账号，怎么把账号合并（打通）

笔试：

1.给两个字符串，一组是按一定顺序重复乱序的字母，一组是单词集，如果单词集顺序和字母顺序一致则pattern一致

2.一个表，字段为用户，用户对应的好友集合，让用sql打印出所有用户a对应的不是好友的用户b的组合，及他们的共同好友数量

项目答的很不对味，被质疑我的项目内容和维度建模理论没关系，好郁闷啊。。。。

##作业帮数仓 1面过
1.介绍一个比较有意义的项目
2.再介绍一个比较有意义的项目

3.你项目里说到布隆过滤器，是自己实现的吗？可以自己写一个吗？
4.你比较了解Spark是吧？给几个字段，统计各城市各用户在9月消费的前100名
5.Spark任务的执行流程
6.最近有在读什么书吗？有读数仓的书吗？有在工作中应用吗
7.从0到1建设一个数仓，你会怎么做？
8.从哪了解技术，博客？有了解Spark的哪些东西吗？
9.希望未来工作的团队是什么样的
10.有没有什么想问的

2面 1h 过

1.自我介绍

2.介绍1，2个你比较得意的项目

3.如果数据不准和数据到位时间冲突，怎么解决

4.数仓分层了解吗

5.你们事业群的大数据架构是什么样的

6.在数仓干过什么工作

7.MapReduce和Spark的区别

8.cache和persist的区别

9.什么是窄依赖

10.shuffle的过程描述一下

11.你说你读过spark源码，说说shuffle这块的底层实现

12.数据中台和业务驱动的数仓之间的优劣

3面 hr面等消息

1.在原公司做的是什么产品

2.如何解决数仓建模后和实际需求不符的情况

3.数仓建模还可能有什么问题，如何解决

4.为什么来现在的城市（非家乡）

5.来北京是否ok？家人是否支持？

6.薪资有什么期待

加面（这都可以？！）1h offer

1.自我介绍

2.为什么离职

3.原公司的数据中台的职能？为什么有多个数仓？每个数仓的职能是什么，为什么这么分类？你所在的数仓有多少人？分别都负责什么工作？

（半小时都在掰扯我当前公司的数据中台，佛了，所以说面试都是玄学，把该学的知识准备了别刷面试题，遇到玄学问题就歇逼了）

4.如果让你负责数仓，你会怎么做（又是从0到1）

5.讲数仓的维度建模的项目经验

6.你在业务线做什么工作

7.我看你大学里拿过一个XX证书，能说说它给你带来什么工作上的作用吗（哥，你是第一个这么问的面试官）

8.讲讲你刚才说用到的四分位图，适合哪些场景

9.你负责的产品主要功能是什么

10.你做过用户增长相关的数据开发吗

###美团到店事业部一面 30min 应该凉了

1.自我介绍

2.维度建模做过什么

3.维度建模的方法论了解多少

4.数据倾斜是什么

5.数据倾斜的解决方法，还有更简单的方法吗

6.数据入仓做过吗

7.增量合并具体是怎么实现的你了解吗？如果让你来实现的话你怎么写

8.Hive窗口函数

9.如何解决小文件问题

美团优选一面 1h

title里带个高级，hr你怎么把2年多经验的我给叫过去面试的。。。。

1.自我介绍

2.到北京工作的意愿

3.SQL题，给一张城市和交易额表，一张城市对应省份表，取出省份总交易额大于500的省份的名字

4.SQL题，基于刚才，得出省份总交易额 [0,500] , [500,1000], [1000,+oo] 在以下三个区间的省份的数量

5.SQL题，还是基于刚才，按从小到大的顺序得出每个城市的累计交易额，可以用窗口

6.算法题，根据一系列分隔符划分字段，可以用正则分布

7.主要负责的产品

8.产品的指标如何知道给用户带来多少价值

9.指标如何做到精准？

10.就项目中提到的某个实体，讲一下他对应的属性有哪些

11.如果你建模的话，你会如何建模

12.主要都抽取哪些数据源，使用什么工具

13.描述一下抽取的内部逻辑，怎么实现的

14.除了工作，有去读什么书学习吗

15.你觉得flink和spark streaming有什么区别

16.spark streamiing相比flink有什么优点

17.有什么想问的吗

###百度 1h10min

1.自我介绍

2.描述一下你常见工作内容的一个项目

3.问项目具体内容

4.主要使用什么技术栈

5.为什么主要用Spark而不是SparkSQL

6.udf或udaf用过吗

7.讲讲mapreduce

8.mapreduce怎么扩大并行度

9.spark你常用的参数设置有哪些

10.数据倾斜一般怎么处理

11.Hive的order by和sort by什么区别，都有哪些应用场景

12.Hive的distributed by和group by有什么区别

13.反转链表，口述解题思路

14.给一个表，包含学生，月份，成就，求每个学生的最高成绩（考察窗口函数）

15.还是刚才那个表，给出连续3个月学生成绩都大于90的记录

16.实时计算做过吗？

17.你项目里的表分区是动态分区还是静态分区（不懂）

百度的这个面试感觉蛮奇怪的，面的是数仓岗，但从头到尾没问数仓建模相关的内容，到最后才问了下有没有数仓的经验，也没细问（太怪了）

###字节业务中台 1h10min 凉凉

1.自我介绍

2.你负责的大数据产品是什么

3.这个大数据产品的数据计算是在哪里进行的

4.谈一个你工作中遇到的困难

5.你说的这个用bitmap解决的问题，如果用OLAP可以怎么解决

6.讲几个主流的大数据计算框架，和分别有什么特点

7.RDD的几个特性

8.Dataframe和RDD有什么区别

9.讲一下Flink的原理

10.数仓建模除了维度建模还有其他的吗

11.数仓的特性讲一下

12.数仓怎么分层，讲一下

13.数据抽取的过程有哪些步骤，讲一下

14.数据倾斜有哪几种优化思路？（在我说完后）还有呢？

15.考虑一个100亿数据的表关联一个10亿数据的表，如何优化

16.Hive分桶怎么帮助上面场景的优化的，能说具体吗

17.算法题，字符串里最长不重复的字符串片段尝试用双指针 -> 讲一下思路 -> 讲一下复杂度 -> 还有更好的方法吗

18.SQL题表tbl（user, name, resource, score）

a.列举所有用户名 b.每个用户的平均资源打分 c.每个资源打分最高的用户（我还问了同时最高是否都要展示）

字节是我面的最全面的，但该深入的也很深，如果他觉得你说的没有技术含量会打断，如果觉得没达到他满意的回答会说，还有呢

###腾讯新闻视频流量 1h

因为面完当场没有记下来，已经记不得细节了

问了MySQL，问了是否做过抽取，介绍一下kafka原理，是否做过入库job，是否使用过Spark Streaming/Flink，还有Spark和项目

SQL题

忘了，反正不难

算法题

1.判断一个整数是否是回文

2.平衡二叉树不额外使用空间返回第三大的值

已采纳

采纳

精彩回帖

精彩

全部评论

(24) 回帖

加载中...

话题同步到我的动态回帖

[持续更新]渣渣大数据社招面试之路

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

近期精华帖

热门推荐

[持续更新]渣渣大数据社招面试之路

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐