C’Thun

编辑于 2021-04-15 20:01

度小满&百度大数据开发工程师实习面经

百度

一面

4.12被捞，4.13面试
自我介绍
然后开始问项目
问两个项目的流程，数据流，简要介绍中间组件的原理
然后问hive
感觉数据倾斜以及对数据倾斜的优化是面试官最喜欢问的
说了一下hive的join问题
同时给了一个场景题
比如在一个表有个u_id数量特别大怎么办
说修改hive参数或者可以考虑加个tag
面试官引导说还有别的方法并且和我介绍了一下
然后是一个算法题
求有序数组中绝对值最小的数
二分查找
接下来反问阶段

当场说了有二面，需要好好准备准备二面了

二面

时间4.14

自我介绍

之后也是介绍简历上的两个项目，数据流，技术栈，中间遇到的困难

接下来开始问hive

问了order by,sort by,cluster by,distribute by的区别

hive的内表和外表

sql问题（某一天登录了但是后一天没有登录的用户）

有没有用mapreduce完成过hive-sql计算，能不能简述一下流程

mapreduce在两表join的时候是怎样的

知道哪些linux命令

java的一些面向对象问题

除了java还会哪些语言

同时问了一下能实习多久，能不能到场实习

接下来是反问，并介绍了一下部门的业务

OC

4.15百度oc

度小满

度小满也是4.12捞的，然后4.13一面

自我介绍完了以后就开始问项目

项目流程，组件原理（MR，kafka）

这个项目当时的数据量很大吗？如果不用kafka用redis或者mysql能否支撑？

然后问了线程池的问题

接下来就是问我一些数据挖掘的东西

比如最小二乘回归，lasso,ridge在数学上怎么实现的

如果是那代码怎么实现？

如果不使用学习率有没有什么其他方法？

然后结合建模经验，介绍了一下多元回归比如LR

后面是几个算法题

给出三个点形成的矩阵，返回三角形面积

m个相同盘子，n个相同苹果，可以有空盘，有几种排列方式（递归，但是当时没想出来）

删除链表倒数第k个节点

接下来就是反问，说实时，离线和数据挖掘都会涉及

晚上就得到消息有二面了，继续好好准备吧

已采纳

采纳

精彩回帖

精彩

全部评论

(5) 回帖

加载中...

话题同步到我的动态回帖

度小满&百度大数据开发工程师实习面经

百度

OC

度小满

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

近期精华帖

热门推荐

度小满&百度大数据开发工程师实习面经

百度

OC

度小满

更多模拟面试

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐