首页 > [持续更新]渣渣大数据社招面试之路
头像
ros1n
编辑于 2020-09-25 21:52
+ 关注

[持续更新]渣渣大数据社招面试之路

本人海外水本,在某三线中厂工作2年出头后准备跳槽,为了回报论坛和集思广益,特在此记录面试的问题。因为刚开始,后面会持续更新。

##阿里云 城市大脑 1面 凉凉
1.做个自我介绍
2.谈谈工作中的一个亮点,或者有较大贡献的地方
3.意向工作地点
4.从上家公司离职的原因
5.数据抽取是否有遇到过什么问题,如何解决的
6.说一下数据治理方面实践的例子
7.用过什么阿里的组件吗
8.如何解决数据倾斜,举个例子
9.Spark RDD有什么特性
10.Hive优化
11.Hive分桶和分区的区别
12.一个Hive表,数据量很大,分布在集群的100个节点,现在需要定期取top100,如何设计/实现?
13.描述一下你做过的ETL流程,如果中间有某个流程我感兴趣我会直接打断
14.直言我现在的实战经验进来有点困难,问:给我个理由,在你技术不足的情况下仍然让你进来

第12题不知道大家是怎么想的?感觉应该有个很直接的答案,但一直想不到,我能想到的是拿要排名的这个字段做hive索引,这样取会快些

1面(捞) + 阿里伯乐系统的笔试 已跪
1.自我介绍
2.介绍一下你在公司的工作情况,包括觉得学的到的最有用的东西
3.我讲项目,问数据量有多少,问技术提升的效率
4.你们公司的数据中台是什么?能和我介绍一下吗
5.你们数据中台的使用方是哪些
6.你在数据中台建模的项目
7.主题域是什么,你们是怎么划分主题的
8.数据中台打通了什么数据,怎么打通
9.如果不同业务线有同一个用户使用不同手机号注册不同的账号,怎么把账号合并(打通)

笔试:
1.给两个字符串,一组是按一定顺序重复乱序的字母,一组是单词集,如果单词集顺序和字母顺序一致则pattern一致
2.一个表,字段为用户,用户对应的好友集合,让用sql打印出所有用户a对应的不是好友的用户b的组合,及他们的共同好友数量

项目答的很不对味,被质疑我的项目内容和维度建模理论没关系,好郁闷啊。。。。

##作业帮 数仓 1面 过
1.介绍一个比较有意义的项目
2.再介绍一个比较有意义的项目
3.你项目里说到布隆过滤器,是自己实现的吗?可以自己写一个吗?
4.你比较了解Spark是吧?给几个字段,统计各城市各用户在9月消费的前100名
5.Spark任务的执行流程
6.最近有在读什么书吗?有读数仓的书吗?有在工作中应用吗
7.从0到1建设一个数仓,你会怎么做?
8.从哪了解技术,博客?有了解Spark的哪些东西吗?
9.希望未来工作的团队是什么样的
10.有没有什么想问的

2面 1h 过
1.自我介绍
2.介绍1,2个你比较得意的项目
3.如果数据不准和数据到位时间冲突,怎么解决
4.数仓分层了解吗
5.你们事业群的大数据架构是什么样的
6.在数仓干过什么工作
7.MapReduce和Spark的区别
8.cache和persist的区别
9.什么是窄依赖
10.shuffle的过程描述一下
11.你说你读过spark源码,说说shuffle这块的底层实现
12.数据中台和业务驱动的数仓之间的优劣

3面 hr面 等消息
1.在原公司做的是什么产品
2.如何解决数仓建模后和实际需求不符的情况
3.数仓建模还可能有什么问题,如何解决
4.为什么来现在的城市(非家乡)
5.来北京是否ok?家人是否支持?
6.薪资有什么期待

加面(这都可以?!)1h offer
1.自我介绍
2.为什么离职
3.原公司的数据中台的职能?为什么有多个数仓?每个数仓的职能是什么,为什么这么分类?你所在的数仓有多少人?分别都负责什么工作?
(半小时都在掰扯我当前公司的数据中台,佛了,所以说面试都是玄学,把该学的知识准备了别刷面试题,遇到玄学问题就歇逼了)
4.如果让你负责数仓,你会怎么做(又是从0到1)
5.讲数仓的维度建模的项目经验
6.你在业务线做什么工作
7.我看你大学里拿过一个XX证书,能说说它给你带来什么工作上的作用吗(哥,你是第一个这么问的面试官)
8.讲讲你刚才说用到的四分位图,适合哪些场景
9.你负责的产品主要功能是什么
10.你做过用户增长相关的数据开发吗

###美团 到店事业部 一面 30min 应该凉了
1.自我介绍
2.维度建模做过什么
3.维度建模的方法论了解多少
4.数据倾斜是什么
5.数据倾斜的解决方法,还有更简单的方法吗
6.数据入仓做过吗
7.增量合并具体是怎么实现的你了解吗?如果让你来实现的话你怎么写
8.Hive窗口函数
9.如何解决小文件问题

美团优选 一面 1h
title里带个高级,hr你怎么把2年多经验的我给叫过去面试的。。。。
1.自我介绍
2.到北京工作的意愿
3.SQL题,给一张城市和交易额表,一张城市对应省份表,取出省份交易额大于500省份的名字
4.SQL题,基于刚才,得出省份交易额 [0,500] , [500,1000],  [1000,+oo] 在以下三个区间的省份数量
5.SQL题,还是基于刚才,按从小到大的顺序得出每个城市的累计交易额,可以用窗口
6.算法题,根据一系列分隔符划分字段,可以用正则分布
7.主要负责的产品
8.产品的指标如何知道给用户带来多少价值
9.指标如何做到精准?
10.就项目中提到的某个实体,讲一下他对应的属性有哪些
11.如果你建模的话,你会如何建模
12.主要都抽取哪些数据源,使用什么工具
13.描述一下抽取的内部逻辑,怎么实现的
14.除了工作,有去读什么书学习吗
15.你觉得flink和spark streaming有什么区别
16.spark streamiing相比flink有什么优点
17.有什么想问的吗

###百度 1h10min
1.自我介绍
2.描述一下你常见工作内容的一个项目
3.问项目具体内容
4.主要使用什么技术栈
5.为什么主要用Spark而不是SparkSQL
6.udf或udaf用过吗
7.讲讲mapreduce
8.mapreduce怎么扩大并行度
9.spark你常用的参数设置有哪些
10.数据倾斜一般怎么处理
11.Hive的order by和sort by什么区别,都有哪些应用场景
12.Hive的distributed by和group by有什么区别
13.反转链表,口述解题思路
14.给一个表,包含学生,月份,成就,求每个学生的最高成绩(考察窗口函数)
15.还是刚才那个表,给出连续3个月学生成绩都大于90的记录
16.实时计算做过吗?
17.你项目里的表分区是动态分区还是静态分区(不懂)

百度的这个面试感觉蛮奇怪的,面的是数仓岗,但从头到尾没问数仓建模相关的内容,到最后才问了下有没有数仓的经验,也没细问(太怪了)

###字节 业务中台 1h10min 凉凉
1.自我介绍
2.你负责的大数据产品是什么
3.这个大数据产品的数据计算是在哪里进行的
4.谈一个你工作中遇到的困难
5.你说的这个用bitmap解决的问题,如果用OLAP可以怎么解决
6.讲几个主流的大数据计算框架,和分别有什么特点
7.RDD的几个特性
8.Dataframe和RDD有什么区别
9.讲一下Flink的原理
10.数仓建模除了维度建模还有其他的吗
11.数仓的特性讲一下
12.数仓怎么分层,讲一下
13.数据抽取的过程有哪些步骤,讲一下
14.数据倾斜有哪几种优化思路?(在我说完后)还有呢?
15.考虑一个100亿数据的表关联一个10亿数据的表,如何优化
16.Hive分桶怎么帮助上面场景的优化的,能说具体吗
17.算法题,字符串里最长不重复的字符串片段 尝试用双指针 -> 讲一下思路 -> 讲一下复杂度 -> 还有更好的方法吗
18.SQL题 表tbl(user, name, resource, score)
a.列举所有用户名 b.每个用户的平均资源打分 c.每个资源打分最高的用户(我还问了同时最高是否都要展示)

字节是我面的最全面的,但该深入的也很深,如果他觉得你说的没有技术含量会打断,如果觉得没达到他满意的回答会说,还有呢

###腾讯 新闻视频流量 1h
因为面完当场没有记下来,已经记不得细节了
问了MySQL,问了是否做过抽取,介绍一下kafka原理,是否做过入库job,是否使用过Spark Streaming/Flink,还有Spark和项目
SQL题
忘了,反正不难
算法题
1.判断一个整数是否是回文
2.平衡二叉树不额外使用空间返回第三大的值

更多模拟面试

全部评论

(24) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

近期热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐