本科计算机相关,研究生计软,7月找实习发现什么都不会,边学习边秋招.
1.大数据的岗位是有坑的,投的时候注意识别,大类分三种数分,数开和数挖
2.这个比较好区分,数分一般要求R/Python和Sql/Hive,问的问题也都是实际的sql操作
3.数挖就是机器学习相关了,这个写的是Xgboost/随机森林/SVM之类的东西
4.大数据开发则一般都要求Java,但是其中有几个比较细的分支
4.1)大数据中间件/平台的开发要求Spring框架系列,这个对sql/Hive的要求不多,但是对Java的要求很多,其实和后端很接近了
4.2)有些公司数据开发则是写Spark,一般会去掉框架系列要求,RDD系列的操作要会,scala要会
4.3)还有做数仓方向的,这个对Java的要求相对较低,要求会数仓ETL,sql要求类似于数分
5.总得来说要会的基础有:计网、操作系统、数据结构、Java、Hadoop、Spark、zookeper、选修:Hbase、Hive、Kafka
我的项目是以Hive数仓和mapreduce为主线的,问Java和数据库还有Hive较多.还有基本每次必问多线程,我每次都说不会,可能因为这个挂了不少.
我回答问题的时候直接把整个知识体系全部输出,比如面试说JVM了解吗,就把类加载机制,运行数据区说完,数据区分1:2的新生老年代,新生分8:1:1的伊甸 from to
为什么是1:1用的是复制算法 顺便介绍G1和CMS这些.
没记录的公司面经不写了,下列面经去掉了自我介绍和项目环节,如果项目聊得好是很占时间的,而且第一个问题基本从项目提到的某一个关键字开始.
附上几个神贴链接:
https://www.nowcoder.com/discuss/101712 感谢牛客网!发一波面经!阿里、网易游戏、京东等offer。
https://www.nowcoder.com/discuss/109518 十余家公司大数据开发面经
8.21一面bilibili
1.写sql查平均分大于80的前三名
2.不用distinct去重 select count(id) from (select id from bigtable group by id) a
3.==和equals
4.JVM知道吗
5.groupbykey和reducebykey的区别
6.数据库范式 和 数仓模型
7.mapreduce会吗,会多少个spark算子
8.你到底会什么,自己说
8.27一面 滴滴
1.腾讯那道五匹马的问题 写
2.100层楼求临界值 写
3.写sql
9.4有赞一面
1.==和equals
2.hashmap底层 长度 扩容方式 为什么2倍 线程安全
3.ConcurrentHashmap和Hashtable
4.JVM全部 CMS G1 堆的内部分区
5.数据库索引 为什么用b+树
6.AVL 红黑 b树 b+都说一说
7.linux操作命令 hdfs上传
8.hive数据倾斜了解多少自己说
9.数据库事务
10.快速排序
有赞二面
1.Overload和Override
2.drop delete truncate区别
3.数据库范式
4.多线程全部
5.你遇到真实的hive倾斜问题 不要背答案
9.26 一面某国企 忘记名字了
1.sleep wait
2.combine和partition用法
3.hashmap
4.jvm
5.hive表区别
6.分桶分区
9.27 小米一面
1.linux查文件指令
2.行转列 列转行
3.开窗函数
4.JVM
全部评论
(6) 回帖