首页 > 快手数据研发工程师一、二、三(HR面)总结,已意向书感谢牛客
头像
InstantCWeed
编辑于 2020-09-23 19:48
+ 关注

快手数据研发工程师一、二、三(HR面)总结,已意向书感谢牛客

9.8 15:00
快手 数据研发工程师 一面总结:
时长:30分钟左右

1.自我介绍
2.围绕项目提问(是否是实验室项目,是不是自己做的全部模块等等)
3.数仓理论、建模理论了解多少? 星座模型知道吗?和星型模型有什么区别?
4.Flume都有哪些组件?分别使用什么类型的Source、Channel和Sink?
5.Kafka如何保证不丢数,如何保证不重复数据?
6.HDFS的常见数据格式,列式存储格式和行存储格式异同点,列式存储优点有哪些?
7.Hive数据倾斜什么表现,如何处理?仔细说下如何调整MapTask和ReduceTask中内存大小和cpu核数;小文件如何处理?切片大小能不能任意调整?
8.Hadoop的MR过程
9.Hive都用过什么窗口函数?
10.知道UDF、UDTF、UDAF吗?他们有什么区别?自己写过这些函数吗?
11.SQL题:
1.表table1(usr_id int,usr_dt string),其中id字段数值相同,找出表中连续活跃的天数,如果不连续,则当前行连续活跃字段设为1,返回查询结果table2(窗口函数)
2.如何将表table1的usr_dt字段的值转化成一个字符串,以逗号分隔(concat_ws()和collect_set()函数的使用)
3.如何将表table3的中生成的那个字符串变成原先table1的形式(UDTF中的explode()和lateral view()函数的使用)
12.窗口函数如何取得当前行,如何取得前n行和后n行?
13.反问问题

ps:面试官是个小姐姐,很温柔,会很耐心听完,然后引导回答。忽然对快手多了几分好感,2333

9.10 11:00
二面总结:
时长:55分钟左右

ps:自我介绍后,面试官就说咱们直接从项目开始吧,问一些调优的东西..

1.自我介绍
2.项目中都用到了什么技术栈?为什么用了Flume还要用Kafka?项目开发时间长还是框架搭建时间长?过程中遇到过什么问题?(几乎把用到的所有框架都问了一下,Hadoop、Flume、Kafka、Hive、spark等等)
3.用过Sqoop是吧,这个什么组件?碰到过什么问题?项目中Sqoop用来保证数据和数仓的什么特性?
4.Sqoop在保证数据导出一致性时遇到了什么问题?(在MySQL中通过临时表,模拟事务特征,临时表全部导入成功后在导入MySQL的正式表中)这个问题和事务一致性有什么区别?
5.如果Sqoop导入的表特别大,没有办法通过临时表的方案保证数据一致性,怎么处理?
6.SQL题:
表名:log,字段:时间 dt、用户ID uid、城市 city、访问时间 tms
返回:一个时间内的某个城市的pv(次数)和uv(人数)
7.上述SQL代码中哪里会出现数据倾斜,为什么?如何处理?
8.如何优化上述SQL(Hive调优,SQL调优)
9.group by子句中,有两个字段,这个过程会触发几个MR过程?整个SQL代码中会触发几个MR过程?
10.count(*)和count(uid)有啥不同?和count(1)有何不同?
11.手撕代码:二叉树的后序遍历(递归、非递归)
12.数仓理论了解多少?
13.做过主体域或者数据域的分析吗?
14.反问问题

9.17 11:00
三面(HR面)总结:
时长:20分钟左右

1.核实个人信息和意向岗位,确定毕业时间
2.自我介绍
3.说一两个你最满意的竞赛或者项目
4.竞赛或者项目中遇到的最大困难是什么
5.和队友沟通过程有遇到过冲突吗?
6.为什么算法转大数据,了解过应聘岗位的工作内容吗?
7.面试过程中对于面试官、工作内容和工作地点有什么想反馈的吗?
8.近期有面试其他公司吗?当前进度都是什么?给你快手的offer会来吗?能提前来实习吗?
9.用一个词或者一句话形容自己
10.反问问题

9.23 
意向书邮件

更多模拟面试

全部评论

(7) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

近期热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐