首页 > 作业帮大数据提前批一面二面面经
头像
魔力鸟flying
编辑于 2020-08-08 21:13
+ 关注

作业帮大数据提前批一面二面面经

作业帮大数据提前批一面二面面经

一面 2020.08.08 45分钟
1.flume如何埋点,定位数据的位置
2.kafka的数据流的时序性
3.kafka连接sparkstreaming的几种方式等等
4.如何设计数仓架构
5.redis有哪些数据结构,应用场景有哪些
6.手撕代码:40亿个ip地址,每个ip平均50字节,设计一个黑名单,可快速判断一个ip在不在这个黑名单中

二面 2020.08.08 50分钟
1.kafka如何保证数据不重不漏
2.sparkstreaming底层实现原理
3.spark哪些算子一定会发生shuffle
4.join会不会发生shuffle
5.介绍一下spark core的原理
6.手撕代码:给你一个hdfs上/tmp/data.text文件里 的表class  student  subject score用spark core完成统计每个class总成绩前十名的student
7.手撕代码:给定两个等长数组y[N];A[N],编程实现如下效果:
其中y中元素为正整数1-50,A中元素为实数-10000-10000,各自数组中都有可能出现重复的数值
选取一组下标集合 {0,1,2.。。。N-1},使得子数组Y’的不同元素计数乘以数组A'元素之和的值最大,输出最大值。
即使得count(distinct Y[I])乘以sum[A(i)]最大

总结:面试体验很好,自己水平还是有限

更多模拟面试

全部评论

(9) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐