1、自我介绍
2、整体介绍一下你的项目流程,常见的埋点方式有哪些?处理日志数据和业务数据的方式有什么不同?DWS层和DWT层是干嘛的?
3、你的Hive表进行分区了么?是按照什么方式分区的?
4、ADS层主要是干嘛的,如何进行主题划分?
5、介绍一下MR的流程(卧槽,这个阶段我说的太罗嗦了,直接被叫停了,害)
6、Hive中的UDF、UDTF、UDAF的区别是什么?
7、你采集日志数据的时候是按照实时流采集的还是按照批次采集的?
8、除了一道sql题,要求使用窗口函数写出来,我这点写的很不熟练,花了很长时间也没写完,最后让讲了一下思路。然后告诉我,第一时间不是上去就去做题,而是跟需求方进行沟通,确定某些字段的具体含义是应该根据哪些内容确定,泪目了,我这做题家的病是得治一治了。
9、反问环节。
对某些概念理解的比较生硬,不能结合具体的场景。Hive要多熟悉,加强一下实时处理方面的知识。
全部评论
(3) 回帖