1.稍微聊了聊项目的内容,不过没深聊,有其他的技术方案选型吗,对Hive,Presto这些熟悉吗
2.说说Spark,只要我不停就可以一直说下去。。。
3.Spark是数据全都存在内存中的吗, Spark为什么比MapReduce快
4.Spark具体的运行流程,HSDFS文件的读写流程,怎么确保文件读写完成了
5.说一下数据的索引,平时sql写的多吗
sql题:
有个表中有date, city_id, user_id, timestamp字段,写出每天每个城市的访问次数和访问人数的sql语句。
如果再让你开展实习这个项目,你会怎么做?
聊了聊天,比如毕设这些什么时候能搞定啥的,还有就是反问了。
有些问题可能忘了,问的不难,答得还行,求下一面
全部评论
(3) 回帖